[БЕЗ_ЗВУКА] Тематические модели, как правило, создаются ради того, чтобы упростить пользователям понимание больших текстовых коллекций, навигацию по большим текстовым материалам коллекций. И конечно же, здесь не обойтись без средств визуализации. В последние годы таких средств, более-менее универсальных, сделано много. Многие из них находятся в открытом доступе, то есть можно скачать и свою построенную тематическую модель визуализировать с помощью уже готовых инструментов. Большинство из этих инструментов ориентированы именно на то, чтобы визуализировать текстовые коллекции через веб-интерфейсы. То есть поскольку это все-таки средство информационного поиска, то и вот отсюда такая ориентация на веб-интерфейсы. Ну вот один из канонических примеров, который был не так давно сделан и выложен в открытый доступ на GitHub. И вот на слайде показаны примеры того, как выглядит этот пользовательский интерфейс. Здесь демонстрационный пример, который вот авторами сделан на примере «Википедии». Вы попадаете когда на вот этот сайт, который сгенерирован этим средством Topic Model Visualization Engine, и сразу видите список тем. Можете кликнуть в каждую тему, вам покажут окно, в котором будут видны документы этой темы, термины этой темы. Дальше можно кликнуть в документ и увидеть, какие слова в этом документе, какие есть темы в этом документе, перейти на другие темы. И вот таким вот образом реализуется возможность навигации пользователя по коллекции, то есть пользователь может ходить по темам, по документам и по ссылкам между темами и документами. Такое вот простое базовое средство, для того чтобы посмотреть на тематическую модель, которая была построена. И сделать это можно очень быстро. Следующий инструмент для визуализации — он скорее не для пользователей, а для разработчиков — тематическая модель, для того чтобы получше посмотреть на темы, как на столбцы матрицы Φ, и попытаться дать им какие-то интерпретации, переименовать, посмотреть, насколько темы дублируют друг друга, насколько понятные сочетания слов в этих темах образуются. Поэтому вот в этом средстве — системе Termite — есть много функций, для того чтобы по-разному упорядочивать строки матрицы Φ, так чтобы стало видно глазами на фрагменте матрицы Φ, а что же за тема у нас получилась. Вот как видно на этом рисунке, здесь даже выделен вот этот в явном виде столбец матрицы Φ, подписаны все слова, и видно, какие слова сгруппировались вместе. Там даже есть такая функция, чтобы вместе сгруппировать те слова, которые в документах часто стоят рядом друг с другом. И тогда мы прямо вот способны читать эту тему, потому что слова как раз хорошо связываются друг с другом. Есть огромное количество средств визуализации для тематических моделей — потоков новостей или научных статей, или любых других коллекций, где каждому документу приписана метка времени. Тогда строить тематические модели очень удобно, визуализируя их в виде вот таких вот красивых графиков, где видно, как развивались темы во времени, какие темы в какие моменты набирали популярность, в другие моменты времени они совсем забывались. Ну вот, например, в этом примере показано, что видны темы, которые возникли в связи с финансовым кризисом 2008 года. И на таких графиках можно изучать предвестники, последствия и какие-то темы в окрестности кризиса, исследовать, связаны они с кризисом или не связаны. То есть это инструмент и навигации по коллекции, и вот таких вот аналитических исследований, как качественных, так и количественных. Вот еще более интересная визуализация — так называемая река тем, где показаны моменты зарождения тем, их исчезновение. Вот они хорошо видны, видны те моменты, где темы расщепляются. И также можно наложить вот такие вот волны — это траектории отдельных слов: вот в каких темах это слово активно использовалось. Причем частая такая волна означает, что слово использовалось часто, более редкая, что, значит, слово вот в этот промежуток времени использовалось более редко. То есть можно накладывать отдельные слова на темы и получать вот такие вот визуализации — тоже способ исследования динамики тем во времени. Вот другой пример, который показывает, что если тематическая модель учитывает не только слова, но, в частности, связи между документами, и, в частности, это связи цитирования между научными статьями, то можно ставить очень интересные задачи. Например, попытаться ответить на вопрос: а какие предшествующие работы действительно существенно повлияли на данную статью? Ведь в статье часто десятки ссылок. Многие из них чисто формальны или дань вежливости, или же какие-то незначительные моменты, которые для данной статьи где-то в одном месте только упомянуты. Но возникает вот какой вопрос: а на каких предшествующих работах действительно содержательно данная статья существенно опирается? Как выявить те статьи, которые действительно оказали существенное влияние на каждую работу? И оказывается, что это можно сделать с помощью тематической модели, то есть можно выявить тематику статьи, понять, к каким темам она относится. А дальше посмотреть, какие работы были в списке литературы, на которые она сослалась, и которые тоже соответствуют этой тематике. И получается, что тематическая модель позволяет решить вот эту вот важную функцию, то есть сказать, что из этих 30 или 40 статей, на которые здесь сослались, на самом деле определяющими для данной работы являются только 3. Вот на них она существенно опирается. Это важная вещь для вот такой вот... для библиометрии, для аналитики. Вот, а с другой стороны, использование ссылок и цитат позволяет уточнить саму тематическую модель, потому что есть такая здравая гипотеза, что если две статьи ссылаются друг на друга, то, значит, у них есть какая-то общая тематика. И вот это вот как раз можно учитывать с помощью регуляризатора. Еще один пример. Тематическая модель, которая строится тоже, как правило, вот такого сорта модели хорошо проходят на коллекциях научных текстов. Вот в данном случае был взят за многие годы известнейший американский журнал Science, в котором делаются публикации самые лучшие по самым разным отраслям науки. То есть это очень политематическая коллекция. Так вот, оказывается, что мы можем выявлять связи между темами. Здесь такие соображения, что если мы имеем статью, например, про археологию, то в ней скорее появятся термины из геологии, чем из генетики. И выявлением вот таких вот связей между темами, как отраслями знания, тоже представляет отдельный прикладной интерес. И можно построить тематическую модель: вот как на этом рисунке показаны темы кружочками, в темах вписаны главные слова, но самое интересное, что простроены связи между темами. Связь, или ребро, на этом графе тем означает, что вот эти две темы часто оказывались рядом в одних и тех же документах. Это называется коррелированная тематическая модель (correlated topic model). И там фактически тоже используется регуляризатор, который выстраивает и учитывает корреляционные связи между темами, как между строками матрицы Θ. То есть учитывается именно то, как темы входят в документ, а не то, как они... из каких слов они состоят. Итак, резюмируя, поскольку тематическое моделирование — это инструмент исследования больших текстовых коллекций, информационного поиска, разведочного поиска, навигации по коллекциям, конечно же, здесь не обходится без разных средств визуализации. И в этом коротком видео мне удалось показать только лишь малую долю из них. Их огромное количество. Для конечных пользователей мы можем им упрощать навигацию и поиск, но для разработчиков моделей (тематических моделей) визуализации тоже крайне важны, потому что Φ и Θ — это огромные объекты матрицы, которые трудно себе представить. И если построение модели пошло как-то не так, то как обнаружить, что модель несовершенна, что есть какие-то ошибки при построении модели? И вот средства визуализации используются и на стадии отладки, тестирования, разработки тематических моделей. Если в эти средства вставляются способы внесения каких-то модификаций или каких-то оценок от экспертов, то получается, что это еще и инструмент, для того чтобы собрать какие-то размеченные данные, а потом эту разметку учесть либо для оценивания качества тематической модели... Например, мы можем смотреть за тем, насколько хорошо в нужных темах группируются нужные слова, или за тем, что ненужные документы не оказываются в тех или иных темах. Но эту информацию также можно с визуализатора собрать, накопить и потом использовать для дообучения тематической модели, то есть это те самые дополнительные данные, которые можно учесть в регуляризаторе и дальше использовать для уточнения тематической модели.