В этом видео мы рассмотрим, чем же байесовский подход к теории вероятности, к математической статистике отличается от классического или частотного подхода. На самом деле, ключевое различие между частотным подходом, который многие из вас изучали в вузах, и байесовским подходом заключается в том, как трактовать случайность. С точки зрения классического подхода случайная величина — это величина, значение которой мы принципиально не можем предсказать, то есть некоторая объективная неопределенность. В то же время с точки зрения байесовского подхода случайная величина на самом деле является детерминированным процессом, просто часть часть факторов, которые определяют исход этого процесса, для нас неизвестны. Именно поэтому мы и не можем предсказать конкретный исход данного испытания с данной случайной величиной. Из этого сразу вытекают некоторые следствия. Ну, например, с точки зрения байесовского подхода любую неизвестную величину можно интерпретировать как случайную и использовать аппарат теории вероятности, в частности, вводить на нее плотность распределения. При этом, коль скоро случайные величины для нас кодируют субъективное незнание, у разных людей неопределенность на одну и ту же случайную величину может быть разная. Именно поэтому и плотности распределения на эту случайную величину будут отличаться для разных людей, обладающих разной информацией о факторах, влияющих на эту случайную величину. С точки зрения классического подхода величины четко делятся на случайную и детерминированную. И бесмысленно применять аппарат теории вероятности к детерминированным случайным величинам или параметрам. С точки зрения байесовского подхода все величины, значения которых неизвестны, можно интерпретировать как случайные. Соответственно, можно вводить плотность распределения и выполнять байесовский вывод. Основным методом оценивания в классическом подходе является метод максимального правдоподобия, который мы с вами рассмотрели в предыдущем видео. При байесовском подходе к статистике основным выводом является теорема Байеса. Соответственно, результатом оценивания в классическом подходе обычно являются точечные оценки, как правило, это оценки максимального правдоподобия, либо реже — доверительные интервалы. При байесовском же подходе результатом вывода является апостериорное распределение на оцениваемые параметры. Метод максимального правдоподобия является оптимальным при n стремящемся к бесконечности, соответственно, большинство теорем в теории вероятности, которые обосновывают корректность применения этого метода, доказывают предположение, что объем выборки, по которой мы оцениваем неизвестный параметр, много больше 1. В то же время байесовский подход можно использовать при любом объеме выборки, даже если объем выборки равен 0. В этом случае результатом байесовского вывода и апостериорного распределения просто будет являться априорное распределение. В то же время, если объем выборки, а именно отношение n к d, где n — это количество объектов, а d — это размерность оцениваемых параметров, много больше 1, результат байесовского вывода начинает стремиться к результату, оцениваемому с помощью метода максимального правдоподобия. Тем самым все теоретические гарантии, которые известны для метода максимального правдоподобия, применимы и к результату байесовского вывода. Одним из преимуществ байесовского подхода является возможность объединения разных вероятностных моделей, которые отражают те или иные косвенные характеристики оцениваемой неизвестной величины. Например, представим себе следующую ситуацию. У нас есть m различных измерений, каждое из которых каким-то образом характеризует неизвестную величину x. Для каждого измерения у нас есть своя вероятностная модель, которая показывает, насколько данное значение j-го измерения вероятно, если случайная величина приняла то или иное значение. Нашей задачей является оценить скрытую неизвестную величину x по наблюдениям y1 yn. Зафиксируем наше исходное незнание о величине x в виде априорного распределения p(x). После чего применим первую вероятностную модель, которая увязывает x и y1. Применив формулу Байеса, можем получить апостериорное распределение на x при условии, что мы пронаблюдали y1. Теперь, если мы начнем анализировать результат второго измерения, которое может быть никак не связано с первым измерением и получено из совершенно другой вероятностной модели, то мы снова можем применить байесовский вывод, только теперь в качестве априорного распределения на x мы положим апостериорное распределение, полученное после измерения y1. То есть в качестве априорного распределения мы поставим p(x) при условии y1. Применив теорему Байеса, мы получаем апостериорное распределение на x, но уже при условии y1y2. Действуя так m раз мы в итоге получим апостериорное распределение на x при условии y1, ..., ym, которое отражает максимум информации, которую мы могли извлечь о величине x при условии, что мы пронаблюдали y1, ..., ym. Если бы мы использовали точечные оценки вместо апостериорных распределений, мы бы оказались в положении слепых мудрецов из известной притчи, которые пытались изучать слона путем различных тактильных ощущений. Как известно, в притче мудрецы не смогли прийти к единому мнению, в то же время, если бы они оперировали байесовским аппаратом и получали бы апостериорное распределение, скорее всего, они смогли бы прийти к мнению относительно того, что же они изучают. В этом видео мы с вами изучили, что такое байесовский подход к теории вероятности, чем он отличается от классического подхода, и посмотрели, как благодаря использованию теоремы Байеса можно объединять несколько вероятностных моделей в более сложную модель. В следующем видео мы посмотрим, как же байесовский подход может быть использован к машинному обучению, и какими преимуществами он обладает.