0:00
[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] Тема сегодняшней лекции: непрерывные распределения.
На прошлой лекции вы рассмотрели основные характеристики случайных
величин и выяснили, что случайные величины бывают непрерывные и дискретные.
И на этой лекции мы рассмотрим основные непрерывные распределения случайных
величин.
На следующей лекции мы еще рассмотрим пару распределений.
Зачем это нужно знать?
На самом деле большинство статметодов основаны на том,
что случайная величина принадлежит некоторому закону распределения.
И если это не выполняется, то статметод просто работает неправильно, и это плохо.
Поэтому когда вы работаете со случайными величинами, вы всегда должны иметь
представление о том, к какому распределению они принадлежат.
Конечно, для этого существуют различные критерии согласия,
которые будут потом, и они довольно сложные.
Но для простоты можно на самом деле просто посмотреть на вашу случайную величину.
Но для того чтобы понять, к какому распределению она принадлежит,
необходимо знать, как вообще выглядят основные распределения.
И первое распределение, которое мы сегодня рассмотрим, будет равномерным.
Вот таким образом выглядит формула функции распределения и функции плотности.
У данного распределения всего два параметра, это коэффициент сдвига
и коэффициент масштаба, и оно обычно обозначается буквой U,
либо Rav Но Rav, естественно, это в русскоязычной литературе.
Следующим образом выглядят графики функции распределения и функции плотности.
Например, из графика функции плотности видно,
что все элементарные исходы равновероятны в равномерном распределении.
На самом деле это видно и по функции распределения, но не так явно.
Матожидание, то есть некоторая средняя величина,
обозначается как середина отрезка просто.
А дисперсия, то есть как некоторый разброс, несколько сложнее,
но тоже довольно просто.
В своей жизни вы часто сталкиваетесь с равномерной случайной величиной,
например, практически все измерительные приборы и их шкалы
распределены равномерно, ну, допустим, спидометр или линейка.
Но само по себе равномерное распределение часто используется как вспомогательное,
для генерации псевдослучайных чисел.
Приведем пример.
Помните, на первой лекции мы рассматривали Бюффона и Пирсона,
которые бросали монетку.
Повторим их эксперименты, но с моделированием случайной величины.
Для этого будем генерировать случайную величину из равномерного распределения
на отрезке от 0 до 2, и будем считать, что если у нас выпало число от 0 до 1,
это «орел», а от 1 до 2 — «решка».
Посчитаем количество орлов и разделим на количество экспериментов.
Сначала повторим Бюффона.
Проведем 4040 экспериментов, и у нас получился 2001 «орел».
И это равно вероятности 0,495.
У Бюффона вероятность была 0,507, то есть на самом деле мы получили результат
более точный, потому что истинная вероятность, как мы знаем, 0,5.
Теперь попробуем повторить Пирсона, но помним,
что у Пирсона была специальная монетка.
И он бросал 24 000 раз.
Проведем 24 000 экспериментов, и у нас получилось 12 072 орла.
У Пирсона же было 12 012 орлов.
То есть Пирсон был ближе к истинной вероятности на целых 60 орлов.
То есть он сделал настолько хорошую монетку, что она оказалась лучше,
чем наш датчик генерации случайных чисел.
Однако мы на это потратили где-то минуты 3, а сколько времени бросал Пирсон,
я даже боюсь предположить.
24 000 раз это довольно много.
И используя эти навыки, многие статистики пишут различные статьи как
раз на тему того, как различные статметоды будут вести себя,
если случайная величина принадлежит тому либо иному закону распределения,
соответственно моделируя эту случайную величину.
А другие статистики могут открыть свое онлайн-казино и посчитать вероятность
того, что они всегда будут побеждать.
Следующее распределение это экспоненциальное распределение.
Его формула выглядит следующим образом: формула функции распределения и
функции плотности.
Если мы видим, что присутствует экспонента,
также данное распределение называется показателем,
и здесь всего один параметр — коэффициент масштаба, который обозначается, как 1 / λ.
Несколько неудобно, но зато всего один.
Таким образом выглядят графики функции распределения и функции плотности.
Обычное экспоненциальное распределение обозначается как Exp, то есть экспонента,
все логично, и математическое ожидание и дисперсия, легко запомнить,
у экспоненциального распределения матожидание — это 1 / λ,
а дисперсия — это 1 / λ².
Легко запомнить.
И приведем пример экспоненциального распределения из практики.
К нам в 2GIS постоянно поступает статистика о действиях пользователей,
например, о кликах.
И время после клика до того, как к нам пришел клик,
распределено экспоненциально, то есть если это онлайн версия,
то мы об этом узнаем очень быстро, мобилка тоже обычно быстро, либо чуть попозже,
и десктоп версия — на самом деле мы можем вообще не узнать о том, что был клик.
И мы знаем, что среднее время прихода клика — 8 часов.
И, допустим, мы хотим провести какой-то анализ одного дня и хотим знать,
вся ли статистика пришла или надо еще подождать.
Например, мы хотим вычислить вероятность того,
что через два дня еще придут какие-то клики.
Для этого воспользуемся формулой экспоненциального распределения,
то есть посчитаем вероятность того, что наша случайная величина ≥ 48.
По свойствам вероятности помним, что это равно то же самое,
что 1 − вероятность от того, что случайная величина < 48.
И это равно 1 − F(48) =
1 − 0,998 То есть вероятность того,
что у нас придут клики через два дня равна всего 0,002.
Это довольно мало, и нет, конечно, смысла ждать, ну, мы и не ждем.
На следующей лекции мы рассмотрим еще некоторые непрерывные распределения.