Здравствуйте! Невозможно представить себе курс по статистике и анализу данных без этого чудесного распределения — это нормальное распределение. Оно окружает нас постоянно, потому что данные часто стремятся к такому распределению. И это доказано в одной математической теореме. В этой теореме говорится, что если на эксперимент воздействует много факторов, каждый из которых имеет относительно маленький вес, то величина распределяется нормально. И таких величин действительно много. Человек умеет точно определять огромное количество внешних факторов, когда, например, строит дом. Инженеры должны высчитывать, например, даже сторону, куда смотрят окна, нагрузку на крыши домов от снега, почву и многое другое. При этом есть вещи, которые человек еще не смог покорить из-за огромного количества факторов, которые нужно учесть. Такие величины мы только пока что наблюдаем, а значит, имеем дело со случайной величиной. Я могу полагать, что вам тоже придется наблюдать за нормальным распределением данных, которые вы будете при помощи своих сайтов добывать, поэтому не могу упустить распределение, хотя оно довольно-таки сложное, и чтобы его изучать, нужно выходить за рамки теоретической базы этого курса и обращаться к сложному математическому анализу. Если мы вернемся к броску кубика, то я должен отметить, что результат броска двух одновременно костей распределен нормально. Раньше мы приходили к математическому ожиданию и дисперсии после введения распределения. Это и логично. Мы знаем, что для их подсчета необходимо знать функцию вероятности нашего распределения. Однако в этот раз мы пойдем другим путем. Сначала зафиксируем математическое ожидание и дисперсию, а потом на основе этих чисел мы опишем распределение. Пусть есть два числа, они обозначаются буквами Мю и Сигма (это буквы греческого алфавита). Мю обозначает математическое ожидание нашего распределения, а Сигма в квадрате — это дисперсия, что делает собственно Сигму среднеквадратичным отклонением. Для непрерывных распределений не задают функцию вероятности. В занятии про непрерывное и дискретное распределения мы увидели, в чем состоит их отличие. Дискретность предполагает, что варианты у нас счетны, мы можем их отделить друг от друга. А для непрерывного распределения это не совсем так. Рассмотрим бросок дротиков дартс. Количество точек, куда он может приземлиться, бесконечно. И пусть мы знаем, что вероятность упасть везде одинакова. Если мы единицу поделим на бесконечность, то получим, грубо говоря, ноль, потому что вообще делить на бесконечность вот так просто нельзя. Но ради наглядности и краткости пусть это высказывание будет корректно, оно близко к правде. Мы имеем нулевую вероятность на самом деле очень часто в нашей жизни. С этим как раз и связано то, что с непрерывностью нужно работать по-особенному, с теми инструментами математического анализа, которые мы не изучаем. Поэтому для непрерывных распределений нужны методы дифференциально-интегрального исчисления, так как именно они позволяют считать, что происходит на непрерывности и что происходит на бесконечности. Поэтому для непрерывных распределений вводят не функцию вероятности, а функцию плотности — ее можно назвать аналогом функции вероятности для непрерывных распределений. Так что мы можем задать функцию вероятности. Для непрерывного распределения она задается следующим образом: e в степени X минус матожидание Мю в квадрате и поделить на две дисперсии со знаком минус. И после этого все это нужно поделить на среднеквадратичное отклонение, умноженное на корень из двух Пи. Это довольно непростая функция. И даже не потому, что в ней очень много странных букв, и она пишется в несколько строк. Сложность заключается в том, что ее интеграл не является так называемой элементарной функцией. Обычно, когда берут интеграл, он превращается в обычную какую-то функцию. Но только не в этом случае. Знак интеграла из этой функции нам убрать не получится. Интеграл этой функции нужен нам для функции вероятности. Для непрерывных функций это не сумма, а интеграл. Чтобы его считать, существуют различные приближения и гигантские таблицы, по которым можно прикинуть значение. Давайте посмотрим на то, как выглядит эта страшная функция. На самом деле, сейчас и дальше (про нормальное распределение) мы начнем рассматривать действительно нормальные вещи. Ее график нормален, и есть некоторое большинство, которому соответствует вот этот бугор на графике. Остальные стараются быть как можно ближе к этому бугру. Отклонения в левую и в правую стороны примерно одинаковы, поэтому этот горб симметричен. При помощи матожидания мы задаем положение этого горба. На слайде изображены графики нормального распределения с Википедии, и там отлично продемонстрировано влияние этих параметров. Три графика соответствуют Мю, равным нулю. И их горб действительно находится на прямой X равняется нулю. А вот единственная кривая с Мю, не равным нулю, а равным минус двум, уехал налево, на прямую X равняется минус двум. Сигма при этом обозначает ширину этого горба. Мы об этом поговорим совсем скоро, а сначала рассмотрим функцию распределения. Напомню, что та самая функция распределения, которую никак не выразить элементарными функциями. Обратим внимание вот на какой момент. Посмотрим на отметку на оси X, равную минус единице. Увидим, где проходит красный график — очень и очень низко, гораздо ниже, чем 0.1 по оси Y. Теперь обратим внимание на точку один по оси X и снова посмотрим, где соответствующая точка на красном графике. Теперь она очень высоко, почти что у единицы. Теперь вспомним, что мы можем делать при помощи функции распределения? Мы считаем вероятность не одного значения, а промежутка. На этом графике мы можем увидеть, что вероятность такого маленького промежутка, как от минус единицы до единицы, равна этому гигантскому перепаду: от чего-то, близкого к нулю, она вырастает почти до максимума, то есть до единицы. А эта функция задана на бесконечности, то есть ноль и единицу она не достигает ни при каком значении, какое бы вы ни назвали. То что так много значений заперты на небольшом отрезке, соответствует так называемому правилу трех Сигм. В этом правиле говорится, что если мы отступим влево и вправо на расстояние одной Сигмы, то есть одного среднеквадратичного отклонения, то мы охватим 68.2 процента значений. Это очень много, больше половины на всего одну Сигму. Если отойдем на две Сигмы, то будет уже 95 процентов значений, тут охватывается уже практически весь спектр значений случайной величины. И наконец, три Сигмы (в честь правила) как раз таки захватывают больше 99.7 значений. Так что рассматривая величину, распределенную нормально, нужно понимать, что значения за пределами трех Сигм — это скорее выбросы, чем какое-то регулярное наблюдение. Зачастую вы можете вообще пренебречь этими величинами при рассмотрении своих данных.