[МУЗЫКА] [МУЗЫКА] Мы столько всего уже говорили про нормальное распределение, что нужно наконец научиться проверять, является ли распределение в выборке нормальным распределением. Для этого есть много методов. Один из методов — это графический способ построения квантильного графика. Что такое квантильный график? По оси x на этом графике отложены квантили стандартного нормального распределения, а по оси y квантили того, что у вас есть в выборке — квантили наблюдаемых значений. Если распределение исходной величины нормальное, то точки лягут на одну линию. На самом деле при помощи квантильных графиков можно проверять соответствие не только нормальному распределению, можно взять здесь любое распределение. Если точки лягут на одну линию, то это будет значить, что величина наша распределена точно так же, как то распределение, которое мы использовали. Давайте попробуем построить квантильный график в R. Как это делается? Во-первых, нам нужно какую-то выборку сгенерировать. В R из нормального распределения мы значения можем сгенерировать при помощи функции rnorm. r — значит random, случайный, norm — это часть названия нормального распределения. Чтобы эти значения у нас с вами получились одинаковыми, мы предварительно должны установить одинаковое зерно генератора случайных чисел на наших машинах. Команду set.seed, которая это делает, нужно выполнить непосредственно перед тем, как вы делаете какую-то операцию с генерацией случайных чисел. Число в качестве аргумента set.seed может быть взято абсолютно любое. Берите какое-нибудь большое число, любое, которое вам понравится. Но в данном случае у нас у всех должно быть одинаковое значение, чтобы у нас получились одинаковые выборки из нормального распределения. Мы возьмем выборку размером 150 наблюдений из нормального распределения, в котором среднее равно 10, а стандартное отклонение равно 3. Почему такие параметры? Мне просто так захотелось. В данном случае это неважно. Вы можете у себя дома поэкспериментировать на своих компьютерах с другими параметрами. Квантильные графики строит функция, которая называется qqplot, и находится эта функция в пакете car. Поэтому мы сначала должны пакет car активировать, если он у вас еще не стоит, вы его, пожалуйста, инсталлируйте. Функция qqplot, если она получает вектор значений, то строит квантильный график. По оси x будут отложены квантили стандартного нормального распределения, а по оси y — квантили ваших данных. Вы видите, что в данном случае мы брали выборку из нормального распределения, и на квантильном графике точки лежат на прямой. Они не совсем точно лежат на этой прямой, в каких-то пределах могут колебаться. Для того чтобы нам было удобнее решать, лежат ли они на этой прямой или нет, для нас показаны ориентировочные границы доверительной зоны, построенные методом Boothstrap. Но все хорошо, это нормальное распределение. А как выглядит отклонение, то есть «в какой момент, доктор, мне нужно начать беспокоиться»? Давайте посмотрим на то, как выглядит отклонение, заглянем в музей разных распределений, которые не похожи на нормальные. Вот перед вами бимодальное распределение. Что значит — бимодальное? Это значит, что у него две вершины, я его синтезировала аналогичным образом, как на прошлом слайде, но только из двух нормальных распределений. И построила квантильный график. И вы видите на этом квантильном графике характерную точку перегиба. То есть он вот так вот S-образно изогнут. В данном случае это показывает, что распределение — две вершины. И оно отличается от нормального. Давайте попробуем посмотреть, что будет, если мы возьмем дискретное распределение, например, распределение Пуассона. Что такое распределение Пуассона? Это когда мы что-то считаем. Например, мы можем считать, сколько пешеходов прошло через перекресток в единицу времени, что угодно. Собственно, у меня взято какое-то распределение Пуассона с не очень большим средним значением, и что мы видим на квантильном графике для этого распределения? Мы видим вот такие вот черточки. Это пики значений одинаковой величины, ведь распределение Пуассона — это распределение дискретной величины, а не непрерывной. Нормальное распределение непрерывно. Мы видели, что точки там лежали на одной линии и как угодно располагались, потому что значения могли быть любые. А здесь число значений ограничено. Когда вы видите такие разрывы, это первый симптом того, что вы имеете дело с дискретной величиной. Что еще мы знаем про это распределение? Мы видим, что маленьких значений больше, чем можно было ожидать при нормальном распределении, то есть вот этих вот значений. где у нас частота маленькая. Еще один вариант отклонений от нормальности — это когда у нас у распределений есть толстые хвосты. В данном случае я синтезировала величину из другого колоколообразного распределения, которое называется T-распределение, но вот эта часть у него толще, чем у нормального, то есть маленьких и больших значений больше, чем можно ожидать. И мы видим, как выходят точки наблюдений из вот этой доверительной области. В данном случае это тоже отклонение от нормального распределения. Что будет, если мы возьмем какое-то асимметричное распределение? Например, распределение, у которого длинный-длинный правый хвост, а в начале большой-большой пик? Мы все это увидим на квантильном графике. Вначале большой-большой пик совершенно одинаковых значений, а в конце длинный-длинный хвост значений, которые отклоняются от того, что можно ожидать, если бы это распределение было нормальным. Вы видите, что на самом деле практически любое отклонение от нормального распределения хорошо видно на квантильном графике, и опять же, перед глазами у вас будет практически вся информация. Это немного лучше, чем формальный тест. Более того, у формальных тестов на самом деле есть масса ограничений. Они все очень зависимы от объема выборки. Чем больше объем выборки, тем чувствительнее они становятся. И даже небольшие отклонения от нормальности вызовут реакцию, и эти тесты нам скажут, что распределение ненормально. Они будут реагировать на малейший шум. Другая ситуация. Если у нас выборка слишком маленькая, то есть из-за того, какую мы конкретно получили выборку, может оказаться, что она отличается от нормального распределения. И тут, опять же, у этих тестов могут быть ложно-положительные результаты. То есть я бы не стала доверять слепо результатам тестов. Используйте квантильный график, когда это возможно, для того чтобы убедиться самим в том, можно ли аппроксимировать то распределение, которое у вас есть, нормальным.