Нормальное распределение, это такое симметричное, унимодальное распределение и при этом непрерывное. Симметричное, это более или менее понятно его правая и левая части, это зеркальное отражение друг друга. Унимодальное, это значит, что у него есть один пик и непрерывное, это значит, что переменная, которая так распределена, она может принимать практически любое значение без каких-то разрывов. Нормальное распределение часто получается, если мы что-то измеряем, но не всегда мы что-то измеряем и получается нормальное распределение, то есть обратное неверно. Многие распределения других типов могут приближаться к нормальному. Это значит, что при определенных значениях параметров их можно аппроксимировать нормальным распределением. Нормальное распределение используется в статистике для статистических тестов. Для других распределений эти тесты могут давать приближенные значения. В тех данных, с которыми мы реально имеем дело, мы имеем дело на самом деле не с самим распределением, а с относительными частотами разных значений. Если мы соберем большую-большую выборку и что нибудь измерим, построим гистограмму, это как раз оно и будет. Реальное распределение сырых данных, частотное распределение. Теоретическое распределение показывает вероятность получить значения X в разных интервалах, и то что откладывается по оси Y для такого распределения, это вовсе не частота, эта вероятность, называется плотность вероятности. Чтобы посчитать вероятность, нужно посчитать площадь под участком кривой нормального распределения. Площадь под всей кривой будет равна единице, потому что это вероятность всех возможных значений, а площадь под любым участком, это вероятность попадания значений в определенный интервал. Нормальные кривые описываются формулой, и вы можете сказать, что в ней много букв, но не пугайтесь, на самом деле не все так страшно, из всех этих букв нас волнуют только два параметра - мю и сигма. Все остальное, это либо константы, либо собственно значения той переменной, распределение которой мы смотрим. Итак, у нормальных распределений два параметра: мю - это среднее значение, и сигма - это разброс значений, стандартное отклонение. Зная параметры нормального распределения, можно смоделировать его форму. Когда мы говорим о генеральной совокупности, эти параметры называются мю и сигма среднее и стандартное отклонение в генеральной совокупности. Когда мы говорим о выборке, мы оцениваем эти генеральные параметры при помощи их выборочных оценок, при помощи выборочного среднего и выборочного стандартного отклонения. Когда мы хотим записать, что какая-то величина распределена нормально, мы делаем вот такую запись, мы пишем название этой величины, знак волнистой черты и буковку N. Буковка N будет означать нормальное распределение, в скобках мы указываем его параметры, мю и сигма. На этом графике два нормальных распределения с разными значениями параметров. У синего распределения, среднее значение меньше чем у красного распределения. Она расположена левее по оси X. Разброс значений в синем распределении тоже меньше чем в красном распределении. Вот так вот они выглядят. У всех нормальных кривых есть одно замечательное свойство, если мы измерили ось X не в исходных единицах, а в стандартных отклонениях, то окажется, что в пределах сигмы от среднего значения лежат примерно 68% всех данных. В пределах двух сигм - 95%. Это довольно обычное для нормального распределения значение. 99,7% всех значений лежит в пределах трех сигма. Все что дальше, это очень-очень редкие значения. Таким образом мы можем о чистоте значений судить по величине стандартного отклонения в выборке, и это свойство нам пригодится для оценок вероятностей.