[МУЗЫКА] [МУЗЫКА] [ШУМ] Всем привет! Сегодня мы начинаем новый модуль, который полностью посвящен согласию — согласию нашей случайной величине и некоторому закону распределения. Это очень важно, потому что очень много старт-методов предполагают согласие нашей случайной величины некоторому закону распределения. И они не работают либо работают, если это предположение выполняется либо не выполняется. Сегодня мы поговорим о гипотезе, о согласии и когда мы можем с ней столкнуться. Хоть когда на самом деле? Например, вы хотите просто посчитать среднее по вашей выборке, арифметическое среднее, не медиану, а именно арифметическое среднее. И если у вас данные были бы нормальные, то все прошло бы хорошо и мы получили бы действительно адекватную оценку среднего. Однако если бы они были какие-нибудь экспоненциальные либо с выбросами, то маловероятно, что у нас получился бы очень хороший результат. Конечно, вы можете построить гистограмму вашей выборки и понять, нормальна она либо ненормальная. Но представьте, что у вас тысячи таких случаев — вам надо тысячу раз строить гистограмму и проверять. Конечно, нам проще будет автоматизировать, так вот критерий согласия вам это все помогут сделать. Кроме того, даже после построения гистограммы вы можете не понять, какие у вас здесь данные. То есть, допустим, логнормальная очень похожа на нормальную в определенных условиях. Но, как мы знаем, методы, которые основаны на нормальном распределении, плохо работают на логнормальном. И чтобы уйти от субъективной оценки — потому что один человек может сказать: да здесь нормальные данные. Да, нет, тут вообще не нормальные, а логнормальные, или вообще экспоненциальные. Чтобы от этого уйти, как раз и служит гипотеза о согласии и критерии согласия. И если мы посмотрим на эту табличку, которую вы, надеюсь, запомнили с прошлых лекций, то в этом модуле рассмотрим вот всю нижнюю часть вот этой вот картинки, то есть гипотеза в виде распределения, простые, сложные. И рассмотрим часть критериев согласия. И в общем виде гипотеза о согласии выглядит следующим образом: у нас есть некоторое предположение о принадлежности нашей случайной величины некоторому распределению. То есть у нас есть основная гипотеза и есть обычно альтернативная. И здесь могут быть варианты. Либо у нас есть конкретная альтернативная конкурирующая гипотеза, например, у нас данные равномерные. И мы проверяем: либо они нормальные, либо равномерные. Либо у нас есть другая конкурирующая гипотеза о том, что данные просто ненормальные, то есть какие угодно, но ненормальные. Также все гипотезы о согласии делятся на два типа: это простая гипотеза и сложная — все логично. Вот простая гипотеза имеет вот такой вот вид, который говорит о том, что мы проверяем предположения, что наша случайная величина принадлежит вполне конкретному закону распределения с заданными параметрами, то есть с точностью до параметра. Например, мы проверяем нашу случайную величину, нашу выборку тому, что она принадлежит нормальному распределению с параметрами 0 и 1.5. Если бы у вас было распределение, допустим, тоже нормальное, допустим, 0 и 2, то гипотеза бы уже отверглась. Вообще, такое, конечно, встречается редко, но, действительно, встречается. Гораздо чаще встречается сложная гипотеза, когда мы проверяем гипотезу о том, что наша случайная величина из некоторого семейства распределений, то есть просто из нормального распределения — и не важно, с какими параметрами — либо из экспоненциального. Эта гипотеза является более сложной, потому что здесь также происходит еще и оценка параметров по нашей исходной выборке. То есть мы еще и там можем наделать ошибок. Поэтому эта гипотеза довольно действительно сложная. И также существует несколько типов критериев. Например, существует общий критерий и специальный критерий. Общие критерии характеризуются тем, что они могут принимать любые гипотезы, допустим, о нормальности, о экспоненциальности, о равномерности — вообще любые. Им не важно, с каким законом распределения работать. Возможно, они обладают несколько разной мощностью, но работают. И мы рассмотрим такие критерий — такие критерии, как типа Колмогорова — Смирнова, Андерсона — Дарлинга, Крамера — Мизеса, хи-квадрат. Но, кроме того, существуют еще специальные критерии, допустим, нормальность, такие как Шапиро — Уилка, которые как раз проверяют только лишь нормальность данных и все. Больше они нам помочь ничем не могут. Однако считаются, что они обладают несколько большей мощностью — именно для этих гипотез, для которых они были разработаны. И на следующей лекции мы рассмотрим хи-квадрат.