[БЕЗ _ЗВУКА] В этом видео мы поговорим о выделении коллокаций. Ну, во-первых, о том, что такое коллокации, зачем их выделять, о том, как их можно выделять с помощью взаимной информации, о том, как можно комбинировать это с другими подходами, о том, какие еще существуют статистические подходы, и закончим всё некоторой простой эвристикой. Итак, коллокация — это, просто говоря, устойчивое словосочетание. При этом это могут быть как достаточно обычные для речи вещи, ну, например, фразы «ставить условие», «назначить встречу», так и какие-нибудь названия, например, крейсер «Аврора». И возникает вопрос — зачем же нам выделять коллокации? Коллокации интересно выделять, во-первых, в случае, если вы хотите сконструировать какие-то более качественные признаки, хотя здесь ваши ожидания могут быть слегка завышены. Дело в том, что использование коллокаций вместо обычных биграмм не то чтобы очень часто дает существенный прирост качества. Ну а во-вторых, можно использовать для визуализации текстовых данных. Это уже куда более осмысленное применение. Дело в том, что иногда нам хочется посмотреть на тексты и понять, о чем же они. И один из способов это сделать — это посмотреть на характерные словосочетания из этих текстов. Как вариант, это можно использовать в тематическом моделировании или же в кластеризации текстов, для того чтобы визуализировать кластеры. Познакомимся для этого с таким понятием, как взаимная информация. Взаимная информация — это некоторая мера того, насколько часто событие происходит вместе. Действительно, давайте рассмотрим вероятность пронаблюдать два события x и y вместе и рассмотрим вероятность пронаблюдать их по отдельности — p(x) и p(y). Если эти события возникают независимо, то вероятность p(x, y) будет просто произведением p(x) * p(y). Если же события возникают не независимо, и, наоборот, даже очень часто эти события происходят вместе, то отношение p (x, y) / p(x) * p(y) будет больше единицы. Ну и, соответственно, логарифм от этого отношения будет больше нуля. Если PMI принимает достаточно большое значение, то эти события часто происходят вместе. Ну какие в нашем случае могут быть события? Например, ситуация, когда мы встречаем в одной биграмме какие-то два конкретных слова. Как же можно выделить коллокации в этом случае? Можно посчитать PMI для встречной пары слов и проверить, что PMI получился больше некоторого порога. Откуда мы возьмем порог? Дело в том, что для разных датасетов порог будет получаться специфичный. Поэтому самый разумный способ — это просто посмотреть на PMI для разных словосочетаний и подобрать порог некоторым визуальным способом. Как вариант, можно взять топ слов по PMI и выбрать достаточное количество. С другой стороны, можно это сочетать с частотами, с которыми биграммы встречаются в текстах. Ну, например, можно отобрать биграммы по PMI, который должен быть больше некоторого порога, и взять из них топ по частотам. Или другой вариант. Выбрать топ по PMI, выбрать топ по частотам и пересечь его. Таким образом получаются наиболее удачные словосочетания. С другой стороны, PMI — это не единственный способ на основе какой-то статистики предположить, что пара слов образует некоторое устойчивое словосочетание. Существуют и другие методы. Ну, во-первых, можно просто посмотреть на позицию одного слова в разных текстах, позицию другого слова в разных текстах и посмотреть на разность этих позиций. Если эти слова склонны встречаться вместе часто, то матожидание этой разности будет близко к нулю, а дисперсия будет не очень большой. Таким образом, на основе оценки матожидания и на основе оценки дисперсии можно получить некоторый эвристический способ опять-таки выделять такие устойчивые словосочетания. Кроме того, можно использовать другие статистические методы, например, t-тест, χ²-тест, или же смотреть на отношение правдоподобий. Мы не будем подробно останавливаться на этих различных методах в данном видео, однако мне хочется еще успеть с вами поделиться такой интересной эвристикой. Оказывается, если у вас достаточно большая выборка, в ней достаточно много раз встречаются одни и те же слова, сильно переусложнять решение задачи выделения коллокаций не стоит. Дело в том, что может быть достаточно просто выбрать наиболее часто встречающиеся биграммы. Или же другой вариант. Выбрать биграммы, которые имеют наибольшую документную частоту, то есть большое количество документов, в которых встретились эти биграммы. Стоит понимать, что в этом случае мы выделяем просто часто употребимые биграммы. Мы не выделяем такие пары слов, которые употребляются только вместе или почти только вместе. Среди выделенных таким образом биграмм могут оказаться и пары достаточно общеупотребительных слов, которые все-таки часто встречаются вместе. Подведем итог. Мы с вами познакомились с понятием коллокаций, выяснили, как можно выделять коллокации с помощью взаимной информации, упомянули другие критерии, упомянули возможность сочетать разные критерии при выделении коллокаций и обсудили простые эвристики.