[МУЗЫКА] [МУЗЫКА] [МУЗЫКА] Большую часть времени исследователи работают с выборками. Но вы, наверное, уже знаете, что выборки все не похожи друг на друга, и они не полно отражают генеральную совокупность. Если мы возьмем другую выборку, мы можем получить другой результат. Как же мы можем вообще доверять оценкам, любым оценкам, которые делаются с помощью выборок. Чтобы ответить на этот вопрос, давайте вернемся к датасет про пять тысяч фильмов и попробуем выяснить, каким же образом мы можем делать выводы о среднем в генеральной совокупности если используем выборки. Давайте представим из датасета "Пять тысяч фильмов" это наша генеральная совокупнсоть. Конечно, на самом деле фильмов гораздо больше, это будет некоторой условностью, но для нашего эксперимента это вполне подойдет. Вы видите распределение величины кассовых сборов, вы его уже видели в одном из предыдущих видео, только теперь ось y выражена в миллионах долларов для того, чтобы числа были не такими большими. Что будет, если мы из этой импровизированной генеральной совокупности будем брать выборки? Брать выборки, оценить среднее. Брать выборки, еще раз оценивать среднее. Посмотрим что получится, насколько результаты будут отличаться. Выборки, конечно, будут отличаться друг от друга. Генеральное среднее на этих графиках отмечено красной вертикальной чертой. Среднее значение, которое мы получили для генеральной совокупности, отмечено желтой чертой. И эти значения очень часто не совпадают. В данном случае так получилось, что в первых трех выборках, которые мы взяли, все средние значения выборочные оказались больше, чем значения в генеральной совокупности. Но могло быть и по-другому, они могли оказаться и меньше. Что будет, если мы продолжим делать этот процесс взятия выборок, будем брать выборки и считать для них средние значения. И в конце концов сможем построить распределения этих выборочных средних. Окажется, что форма этого распределения колоколообразная, и если мы возьмем и посичтаем среднее значения для этого распределения, то оно практически совпадет со средним значением генеральной совокупности, то есть в распределении выборочных средних среднее черным отмечено для этого распределения, а красным это то, что на самом деле. И они практически совпадают. Вам не зря показалась знакомой эта форма распределения колоколообразная. То есть вам не зря показалось, что распределение выборочных средних очень похоже на нормальное распределение. При каких-то условиях оно действительно стремится к нормальному. Это называется центральная предельная теорема, и эта теорема занимает очень важное место в статистике. Благодаря ей мы умеем делать статистические тесты. Если мы возьмем большую выборку, больше 30 экземпляров, а лучше больше 100, то тогда выборочные средние будут нормально распределены со своим средним значением и со своим стандартным отклонением. Среднее значение будет стремиться к среднему значению в генеральной совокупности. Стандартное отклонение будет зависеть от объема выборки. Если мы возьмем выборки маленького объема, всего по четыре фильма будем за раз брать и будем считать для них среднюю выручку, то вы видите, что распределение выьорочный средних будет ассиметрично. Будет длинный длинный правый хвост. Если мы увеличим объем выборки, то оно постепенно будет становиться все более колоколообразным. А разброс его будет становиться все меньше. И этот разброс будет зависеть от объема выборки. Он всегда будет в корень из n раз меньше. Стандартное отклонение распределения выборочных средних называют стандартной ошибкой среднего. Эта величина оценивает насколько точно мы оценили среднее значение нашей выборкой. Чем больше будет объем выборки, тем точнее оценка среднего. Вы, наверное, это всегда чувствовали интуитивно. Если мы берем большую выборку, мы можем больше доверять нашим результатам, мы можем надеяться, что они не отличаются от того, что происходит в генеральной совокупности. Хотя не всегда. Чаще всего в обычной жизни у нас нет доступа ко всей генеральной совокупности, и мы не можем узнать ее дисперсию точно. Мы не можем узнать ее стандартное отклонение точно. Мы вместо стандартного отклонения генеральной совокупности для оценки разбросов в выборочном распределении средних будем использовать стандартное отклонение для нашей выборки. И за счет этого немножко потеряем в точности. Центральная предельная теорема очень важна в статистике. У нее есть две области использования. Во-первых, с ее помощью мы можем построить доверительные интервалы. Что это значит? Это значит, что мы, допустим, можем взять черно-белые фильмы, или цветные фильмы, и кроме среднего изобразить интервал, который в 95% случаев попадет в генеральное среднее в той генеральной совокупности откуда мы взяли выборку. Кроме того, центральная предельная теорема позволяет нам тестировать гипотезы. О том, как строить доверительные интервалы мы поговорим в конце этого модуля, а о тестировании гипотез поговорим в следующем.