[МУЗЫКА] Здравствуйте! На этой неделе мы будем рассматривать различные популярные распределения вероятностей. Мы постараемся сфокусироваться именно на дискретных распределениях, так как в этом курсе мы ограничиваемся только ими, однако мы также заденем и нормальное распределение, которое является, в свою очередь, непрерывным. Распределения по своей сути несут смысловую нагрузку, то есть они отличаются между собой не просто параметрами или видом их графика, а смысловой составляющей. Важно знать существующие распределения, потому что они могут встречаться довольно часто в повседневной жизни, а значит, они будут довольно часто встречаться и в данных, с которыми вам предстоит работать как аналитику. Угадав распределение, мы можем судить о последующих неизвестных нам значениях вероятностей и тем самым предугадывать появление, возникновение каких-то событий в будущем. В этом уроке мы рассмотрим очень простое распределение, чтобы понять, что это такое, как их описывать и по какой схеме мы будем их изучать. Даже если вы сильно устали от такого простого эксперимента, как бросок кубика, я предлагаю снова вернуться к нему. На самом деле этот эксперимент описывает то распределение, о котором мы будем говорить в этом уроке. Напомню, в чем состоит суть эксперимента. Мы бросаем правильный математический кубик, у которого вероятности выпадения каждой грани равны друг другу. Всего у кубика шесть граней, а значит, вероятность каждой грани равна 1 / 6. Мы создаем случайную величину, нумеруем грани этого кубика: 1, 2, 3, 4, 5, 6. После этого заполним табличку, чтобы показать, чему равны значения вероятностей этой случайной величины. И теперь давайте посмотрим, какой график будет у такой функции вероятности. Если все сделать верно, то наши точки на графике будут расположены следующим образом. По оси Y у них одинаковые значения, так как вероятности равны. Значение в данном случае равно 1 / 6. По оси X они соответствуют своим порядковым номерам. Таким образом, все точки графика, соответствующего распределению вероятностей нашей случайной величины, лежат на одной горизонтальной прямой. То, что мы сейчас видим на слайде, на графике, является графиком так называемого дискретного равномерного распределения. Название этого распределения говорит само за себя. Это распределение является дискретным и его исходы распределены равномерно. Иными словами, вероятность каждого исхода одинакова. Конечно, нужно отметить, что число точек должно быть конечным, и это довольно простое распределение, но давайте посмотрим еще и на его параметры, чтобы задать схему рассмотрения распределений. Чтобы задать равномерное распределение, достаточно установить три параметра. Параметры a и b задают отрезок, на котором будут располагаться наши значения. Иначе говоря, это максимальное и минимальное значения случайной величины. В эксперименте с кубиком a = 1, первая грань, b = 6, то есть шестая грань, a и b — это целые числа. То есть они могут принимать отрицательные значения, положительные значения и ноль. Помимо этого, задается число n — это количество значений этой случайной величины. Как я говорил, количество элементов должно быть конечно, n — это натуральное число; a, b и n связаны следующим соотношением, которое вы видите на слайде. Максимальное значение минус минимальное плюс единичка, и это должно равняться n. Исходя из этого, можно заметить еще один важный момент, касающийся этого распределения: соседние элементы должны отличаться друг от друга на единицу. С одной стороны, можно придумать массу экспериментов, где значения будут отличаться не на единицу, но при этом все равно будет казаться, что случайная величина в этом случае распределена равномерно. Например, если мы рассматриваем значения размеров обуви, определенной модели по американской системе, они задаются числами 5, 5,5, 6 и так далее. Казалось бы, значения отделяются друг от друга на 0,5, то есть пять десятых, но мы не можем использовать такие величины для задания этого равномерного распределения, о котором я только что рассказал. На самом деле в этом нет ничего противоречивого, мы просто можем сказать, что эти значения есть элементарные исходы, и пронумеруем их в порядке возрастания. То есть 5 — это у нас первый исход, 5,5 — это второй исход. Если мы знаем, что все размеры обуви на нашем сайте начинаются с 5, а заканчиваются 7, то мы и берем самый минимальный размер за единичку, и потом через 0,5, через пять десятых, мы им просто присваиваем новый номер. Мы удовлетворим условие равномерного распределения и при этом правильно зафиксируем наши данные. Рассмотрим функцию распределения равномерного распределения. На слайде уже изображены спойлеры, но давайте разберемся с тем, как к таким результатам прийти. Для начала вспомним, что такое функция распределения. Она — это есть сумма вероятностей всех событий, значение случайной величины которых меньше либо равны аргументу, который мы передали в функцию распределения. Мы знаем, что вероятность каждого события равна 1 / n. В таком случае что будет в функции распределения от a? Мы должны просуммировать все элементы случайной величины, которые равны a или меньше его. Ну а мы знаем, что a — это минимальное значение, так что сумма состоит всего лишь из одного слагаемого, то есть из 1 / n, то есть вероятности события a. Дальше, если прибавлять к a по единице, мы будем добавлять слагаемые в эту сумму. Прибавим единицу к a, получим следующий элемент нашего распределения, (a + 1). Вероятность этого события тоже равна 1 / n по определению равномерного распределения. Таким образом функция распределения будет равна уже (1 / n) + (1 / n), то есть 2 / n. Соответственно, прибавляя новые значения, мы будем увеличивать значение функции на 1 / n. Общая формула этой случайной величины отображена у вас на слайде на экране. Обратите внимание на график такой функции. В дискретном случае это будет вот такая вот лесенка. Каждая ступенька имеет высоту, равную 1 / n, то есть это значение, которое функция получает за каждое новое значение распределения, и ширину, равную единице, то есть та закрепленная разность между соседними элементами этой случайной величины. Как я и обещал, те характеристики распределений, которые мы рассмотрели в предпоследнем занятии на прошлой неделе, очень важны для рассмотрения популярных распределений. Так как мы уже много знаем про равномерное распределение в общем виде, то мы можем вывести формулу для различных характеристик данных. Начнем с математического ожидания. Оно прекрасно описывает суть равномерного распределения. Математическое ожидание равно среднему арифметическому чисел a и b, наших параметров нашего распределения. Можно заметить, что математическое ожидание совпадает с медианой, и тоже это, в свою очередь, отлично показывает равномерность распределения наших значений. Дисперсия математического ожидания уже немножко посложнее считается, по формуле (n² − 1) / 12. Заметим, что разброс значений растет исключительно за счет добавления новых значений, то есть не зависит от a и b, потому что в этой формуле присутствует у нас только n. На этом мы можем остановиться с рассмотрением равномерного распределения и перейти к более сложным и к более хитрым распределениям.