[МУЗЫКА] [МУЗЫКА]
[БЕЗ_ЗВУКА] [БЕЗ_ЗВУКА] Здравствуйте.
В рамках прошлой лекции, Ольга рассказывала вам про то,
как следует делать выборку из генеральной совокупности, про различные методы отбора,
про понятие репрезентативности, про то, как важно соблюсти репрезентативность
выборки относительно имеющейся генеральной совокупности.
А сегодня мы поговорим с вами про ошибки выборки.
Ошибки выборки можно разделить на два класса: это ошибки регистрации и ошибки
репрезентативности.
Ошибки регистрации прежде всего связаны с нарушением методов отбора элементов в
выборку.
Ну, например, когда мы нарушаем метод случайного отбора элементов в выборку.
И, можно сказать,
что в целом ошибки регистрации делятся на случайные и систематические.
Случайные ошибки не представляют особой проблемы, так как обычно они
уравновешивают друг друга в выборке, то есть они не имеют четкой направленности.
Они не склонны завышать либо занижать показатели,
которые нас интересуют в рамках выборки.
Систематические ошибки как раз-таки наоборот, они имеют некоторое направление,
и могут завышать либо занижать интересующие нас показатели.
Но давайте рассмотрим небольшой пример.
Допустим, у нас есть дом (будем считать, что это наша генеральная совокупность),
мы хотим провести соцопрос и спросить людей,
проживающих в этом доме про их доход.
Но мы не хотим опрашивать всю генеральную совокупность,
и мы хотим сделать небольшую выборку.
И мы решили опрашивать каждую четвертую квартиру на этаже.
Но допустим, каждая четвертая квартира на этаже оказалась однокомнатной,
и вот как раз-таки в данном случае мы имеем ошибку регистрации в нашей выборке,
которая будет скорее всего занижать интересующие нас показатели,
то есть занижать доход, который мы получим по имеющейся у нас потом выборке.
Но в целом ошибки регистрации связаны именно
с нарушением методов отбора элементов в выборку.
Мы можем их выявить, и, в принципе, устранить.
Ошибки репрезентативности они присутствуют всегда, и связаны они прежде всего с тем,
что наша выборочная совокупность (даже если она репрезентативна относительно
генеральной совокупности), все равно не воспроизводит генеральную совокупность.
То есть показатели, которые нас интересуют,
и которые мы можем посчитать по выборочной совокупности,
они всегда будут отличаться от этих же показателей в генеральной совокупности.
Именно про ошибки репрезентативности мы с вами будем говорить дальше.
Что такое ошибка выборки?
Допустим, у нас есть наша генеральная совокупность, мы будем предполагать,
что она у нас имеет объем N, мы делаем из нее небольшую выборку, допустим объема n,
и мы можем посчитать какой-то интересующий нас показатель, можем
посчитать его среднее как по выборке, так и по всей генеральной совокупности.
Ну, допустим.
Так вот разность между средним значением показателя в выборочной совокупности
и средним значением показателя в генеральной совокупности как
раз-таки называется ошибкой выборки.
Ну и когда говорят про ошибки выборки,
мы всегда можем посчитать некоторую предельную ошибку выборки.
Что такое предельная ошибка?
Предельная ошибка это значение,
которое разность среднего в выборке и в генеральной совокупности не
будет превосходить с некоторой заданной нами вероятностью.
Ну и как она рассчитывается?
Как мы видим по формуле предельной ошибки, здесь у нас участвуют n — это объем
нашей именно выборочной совокупности, N — объем нашей генеральной совокупности,
S² — это несмещенная выборочная дисперсия по выборке,
и t — это так называемый коэффициент доверия Стьюдента,
и сейчас мы рассмотрим подробнее, что же такое коэффициент доверия Стьюдента.
Как я уже говорила, предельная ошибка показывает нам значение,
которое разность среднего в выборке в генеральной совокупности не будет
превосходить с некоторой заданной нами вероятностью.
Так вот в зависимости от того, с какой вероятностью мы хотим посчитать предельную
ошибку, по разному будет рассчитываться коэффициент доверия Стьюдента,
то есть значение t.
Ну, например, для вероятности 95%,
значение коэффициента доверия Стьюдента будет у нас равно 1,96.
Ну и давайте рассмотрим небольшой пример.
Допустим, мы хотим рассмотреть генеральную совокупность — все заведения в Москве,
где можно поесть.
У нас есть информация обо всех таких заведениях,
их у нас 5802, и мы знаем средний чек в этих заведениях.
Мы хотим сделать небольшую выборку из этой генеральной совокупности,
и попробовать по небольшой выборке оценить средний чек всей генеральной совокупности.
Мы сделали выборку объемом 294, и по этой выборке мы получили,
что средний чек у нас равен 989 руб.
Также мы посчитали несмещенную выборочную дисперсию,
и предельную ошибку мы будем считать для вероятности 95%,
то есть коэффициент доверия Стьюдента у нас будет равен 1,96.
У нас все готово, чтобы подставить это в формулу и посчитать предельную ошибку.
Предельная ошибка у нас получилась равная 75,66 руб.
Соответственно, теперь мы можем посчитать доверительный интервал для среднего
чека по всей генеральной совокупности.
Что такое доверительный интервал?
Доверительный интервал показывает нам интервал, в который попадет средний чек
по всей генеральной совокупности, с заданной нами вероятностью.
То есть в нашем случае с вероятностью 95%.
Считается доверительный интервал очень просто.
В качестве левой границы мы берем среднее по выборке минус предельная ошибка,
а в качестве правой границы берем среднее по выборке плюс предельная ошибка.
Ну и видим, что интервал у нас получился между 913 рублями и 1064 рублями.
Ну, а так как я говорила,
что у нас есть информация обо всех таких заведениях, то есть мы можем
посчитать истинное значение среднего чека по всей генеральной совокупности.
И в нашем случае оно получилось равным 956 руб.
То есть мы видим, что истинное значение среднего по генеральной
совокупности попало в наш 95-процентный доверительный интервал.
Ну, и на этом все с ошибками выборки, и в следующий раз мы поговорим про то,
как рассчитать минимальный необходимый объем выборки,
который нужно сделать из генеральной совокупности.