В этом видео мы поговорим о том, что такое стандартное нормальное распределение. Стандартным нормальным распределением называется такое нормальное распределение, у которого среднее значение равно нулю, и стандартное отклонение равно единице. Ось на графике такого распределения будет практически измерена в стандартных отклонениях, и это очень удобно. На самом деле после процедуры, которая так и называется, стандартизация, любое нормальное распределение можно превратить в стандартное. Вот, посмотрите, до стандартизации на этом распределении среднее значение 10, и стандартное отклонение примерно 2-2,5 где-то. После того, как мы стандартизовали, т.е. вычли из каждого значения наблюдений среднее значение и поделили на стандартное отклонение, ось будет уже измерена в стандартных отклонениях, и у этого преобразованного распределения среднее значение будет 0, а стандартное отклонение будет равно единице. Для стандартного нормального распределения, очень легко посчитать площади под кривой. Стандартизацию, вообще говоря, можно применять не только к нормально распределенным величинам, любую величину можно стандартизовать. Это называется z преобразование. Из значений наблюдений мы вычитаем выборочное средние и делим на выборочную оценку стандартного отклонения. Если до стандартизации у этих данных на рисунке среднее значение равно десяти и выборочное стандартное отклонение 1,25, то после того, как мы провели стандартизацию, среднее значение будет ноль и стандартное отклонение будет один, вне зависимости от того, как переменная распределена, это всегда будет так. Стандартизация, это очень удобное свойство, оно выравнивает шкалы признаков, которые изначально были измерены в разных единицах и в разном масштабе, потому что после стандартизации всегда эти признаки будут измерены в стандартных отклонениях, в сопоставимых величинах. Как это используется? Вот представьте себе, что у вас есть информация о возрасте матери и весе новорожденного, которого она родила, соответственно. Если возраст матери, это будут какие-то годы, там начиная от 25 до 45, то вес новорожденного, если мы его измерим в граммах, то это будут какие-то тысячи. Совсем другой масштаб. Мы не можем эти величины даже толком изобразить на boxplot-е одновременно, потому что нам будет казаться, что возраст матери вообще нисколько не варьирует, хотя и не так. Но если мы стандартизуем и то, и другое, у нас получится, что масштаб изменчивости выравняется, и для возраста матери и для веса новорожденного теперь ось Y будет измерена в стандартных отклонения от среднего. И тогда мы увидим насколько на самом деле сопоставимо изменчивость в этих данных. Стандартизация очень часто используется в линейной регрессии, если вы хотите уравнять вес разных признаков или в многомерных методах такое может быть. Кроме того, стандартизация, это легкий способ ничего не нарушая изменить масштаб переменной, привести к каким-то небольшим значениям. Это может быть важно, когда вы имеете дело с каким-то сложным алгоритмом вроде алгоритма максимального правдоподобия, вы хотите, чтобы все значения были более или менее маленькими, чтобы компьютер смог справиться с вычислениями. Вот собственно это основные способы применения стандартизации. А о других применениях стандартного нормального распределения мы поговорим в следующих видео.