[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Теперь рассмотрим меры изменчивости. Меры изменчивости зачастую даже более интересны и важны, чем меры центральной тенденции. И начнем с мер изменчивости для порядковых данных. Самая простая мера изменчивости — это, конечно, размах. Это разность между минимальным и максимальным значением. Однако, как вы понимаете, это наименее устойчивая мера изменчивости, потому что на краях распределения как раз у нас чаще всего располагаются ошибки измерения. Поэтому для порядковых данных наиболее информативная мера изменчивости — это межквартильный размах. Это разность между 75-м процентилем и 25-м процентилем. Чаще всего для графического изображения изменчивости порядковых данных используют график. Обратите внимание на экран: график Boxplot. Эти графики появились относительно недавно, были предложены американским математиком Тьюки в 1977 году. На русском языке очень часто можно с такими названиями этих графиков встретиться, как ящичные диаграммы или ящики с усами. Но я предпочитаю их называть Boxplot, графики Boxplot. На экране вы видите форму распределения переменной некоторой и внизу график Boxplot, который очень лаконично отображает форму и характер изменчивости этой переменной. Рассмотрим Boxplot. Представляет собой действительно ящик, границы которого соответствуют 25-му и 75-му процентилю. Центральная жирная линия соответствует медиане, а усы соответствуют либо минимальному или максимальному значению, либо представляет собой полторы длины ящика, то есть полтора межквартильного размаха. Как применяются на практике графики Boxplot? Конечно, они очень удобны для того, чтобы сравнивать выборки, потому что при использовании таких графиков можно их сравнивать не только по уровню выраженности, но и по изменчивости и по характеру этой изменчивости. На экране вы видите два графика Boxplot, представленных для женщин и мужчин, сотрудников некоторой корпорации или компании. Сравните, используя эти графики, мужчин и женщин по распределению заработной платы. Попробуйте проинтерпретировать график. Что мы здесь видим? Границы ящиков, как уже говорилось, 25-й и 75-й процентили, линия между ними — это медиана, усы длиной полтора межквартильных размаха, либо минимальное или максимальное выборочное значение, если оно не достигает этих величин усов. Точки за пределами усов — это выбросы. На графиках мы видим, что зарплата мужчин по медиане выше, несколько выше, немного выше, чем у женщин. Межквартильный размах однако у мужчин гораздо выше, изменчивость выше. Минимальная зарплата, граница нижнего уса, почти совпадает у мужчин и у женщин. Однако максимальные зарплаты у мужчин значительно выше границы верхних усов, а также выбросы. Также мы видим, что распределение зарплаты у мужчин характеризуется ярко выраженной левосторонней асимметрией, то есть чаще встречаются меньшие значения и гораздо реже большие значения. На этом мы закончим рассмотрение мер изменчивости для порядковых данных и перейдем к рассмотрению меры изменчивости для метрических переменных, для тех, распределение которых соответствует приблизительно нормальному. Основной мерой изменчивости для метрических переменных является дисперсия. Формулу ее вы видите на экране. Дисперсия, вообще говоря, это синоним изменчивости в науке. Еще отметим, что в русском языке существует два термина — изменчивость и дисперсия. Дисперсия — для обозначения именно меры изменчивости. Изменчивость — более широкое понятие. И в английском языке тоже существует два термина — dispersion и variance. Следует отметить и запомнить, что в английском языке dispersion — это изменчивость. а дисперсия как раз обозначается variance, как специальный термин. Дисперсия вычисляется таким образом: суммируются квадраты отклонений от средней величины для всех представителей выборки, и сумма квадратов отклонений делится на N − 1. Несмотря на то, что дисперсия является основной мерой изменчивости, она не очень удобна как описательная статистика, потому что имеет квадратные единицы измерения. Если переменная — это секунды, то дисперсия будет представлена в секундах в квадрате. Поэтому в качестве основной описательной статистики для изменчивости используют стандартные отклонения. Стандартные отклонения — это корень квадратный из дисперсии. И может называться по-разному: стандартное отклонение, или среднеквадратическое отклонение, или просто сигма, по тому, как обычно обозначают эту величину. Итак, в качестве основной описательной статистики для оценки изменчивости применяют стандартные отклонения. На экране вы видите последовательность вычисления дисперсии. Более подробно с вычислением дисперсии вы познакомитесь на практических занятиях. И сейчас на экране вы видите первичные статистики, как они представлены в программе SPSS. Как видим, это развернутый перечень описательных статистик, включая, в частности, процентили, то есть 25-й процентиль, то есть первый квартиль, второй квартиль, медиану и третий квартиль, для того чтобы можно было оценить межквартильный размах. Мы рассмотрим свойства дисперсии с двух точек зрения — формальные свойства дисперсии, а потом содержательные. На экране перечислены формальные свойства дисперсии. Понятное дело, что если все значения переменной — одна и та же величина, изменчивости не наблюдается, дисперсия в этом случае будет равна нулю. Второе свойство: прибавление одного и того же числа к каждому значению переменной — следует запомнить — не меняет дисперсию. График распределения сдвигается при этом либо вправо, либо влево, в зависимости от знака константы, которая прибавляется к каждому значению переменной, но форма распределения остается той же. Другое дело, если мы умножаем каждое значение переменной на константу. Понятное дело, новое значение дисперсии будет равно старому значению, помноженное на константу в квадрате. Еще очень интересное свойство дисперсии связано с тем, что если мы объединяем две выборки с примерно одинаковой дисперсией, но которые различаются средними значениями, то новое значение дисперсии будет больше, чем в выборках по отдельности. И чем сильнее различаются эти выборки по среднему значению, тем больше будет прирост дисперсии. Это широко используется при анализе данных. [БЕЗ_ЗВУКА]