Добрый день, уважаемые слушатели! Сегодняшняя тема нашей лекции заключается в визуализации данных. Эта тема является очень важной для анализа, потому что визуализация данных служит, как инструмент на абсолютно разных этапах нашего стандарта CRISP. Скажем, визуализация данных позволяет нам вырабатывать гипотезы, которые мы затем проверяем, позволяет нам проверять гипотезы, которые мы уже выдвинули, ну и позволяет, в целом, оценить качество наших моделей, которые мы раньше строили. Итак, визуализация данных. Само по себе понятие визуализации происходит от латинского названия зрительный visualis, и, в принципе, под этим словом помещается обычно множество различных методов, способов и различных алгоритмов в представлении числовой или текстовой информации в виде, удобном для зрительного наблюдения и анализа; то есть, если мы рисуем какую-нибудь карту, например, города — это тоже визуализация. Если мы рисуем столбчатую диаграмму, и это тоже визуализация. Рисуем трёхмерную поверхность — тоже она. То есть, на самом деле, сами по себе методы очень разнообразны и, в первую очередь, они делятся по тому, откуда мы берём данные для этих визуализаций и куда их применяем дальше. В целом, можно выделить следующие основные направления для визуализации. Это информационный дизайн, это визуализация информации, это визуализация данных, научная визуализация и визуальная аналитика. Ну, давайте поговорим сначала об информационном дизайне. Это наиболее общее понятие. Сюда же может относиться инфографика, и здесь можно считать наибольший творческий компонент, именно в этом направлении. Именно здесь мы меньше ориентируемся на сами данные, а больше ориентируемся на конечный результат. Мы пытаемся нарисовать информацию наиболее ёмко, наиболее обще. Здесь сами данные, скорее всего, поступают нам не в автоматическом режиме, здесь наибольший компонент осмысления этих данных художником происходит, и, в целом, это направление, пожалуй, наименее автоматизировано с точки зрения того, чем мы занимаемся, то есть Data science и машинным обучением. В принципе, так или иначе, у нас есть некая информация, представляем ее в зрительном виде так, чтобы она воспринималась наиболее широкой аудиторией. Примеров такой инфографики сейчас достаточно, вы можете видеть её в современных изданиях, например, газетных, когда вы смотрите на какие-либо новости о, там не знаю, войне, о каких-то ресурсах, о страновых параметрах статистики, о какой-нибудь миграции и так далее. То есть, в принципе, что такое визуализация в этом плане, инфографика, уже все достаточно хорошо представляют. Теперь давайте поговорим немножко о нюансах. Значит, в принципе, есть визуализация данных и визуализация информации. В чём разница? На первом занятии мы рассматривали отличие визуализации, точнее информации, от данных. И давайте вспомним, что же это такое. Сами по себе данные — это, фактически, некие факты, которые мы ещё не проанализировали. То есть в базе данных, собственно, хранятся сами данные. Пока на них не брошен взгляд, на эту таблицу, пока эта информация не осмыслена хоть как-то, это содержимой информацией не стало, это только данные. То есть цифры в таблице, которые мы ещё не рассмотрели никак, — это данные. Как только мы её рассмотрели, осознали, это информация. Соответственно, и то, и другое представляет собой разную степень того, что мы называем знаниями. Ну, опять-таки, если мы знаем, что в какой-то стране проживает миллион человек, то это, в принципе, факт. Можно отнести его к каким-то данным. Если мы знаем, что из этих ста тысяч или ста миллионов человек сколько-то процентов занимают женщины, сколько-то мужчины, то, в принципе, это тоже факт, который можно визуализировать. Но, если мы пытаемся на этом основании сделать какой-то вывод, скажем, попытаемся составить некую зависимость какого-то потребления в зависимости от пола, какого-то распределения ресурса другого, какого-то поведения наших этих жителей, то, в принципе, мы уже работаем с информацией. Как только мы начинаем эту зависимость пытаться проанализировать с точки зрения причин, почему она возникает, это уже становится знанием. То есть знание мы можем повторно уже применять для создания новых выводов. И вот по этой цепочке также и работает визуализация. Значит, в принципе, мы с вами будем заниматься, в основном, визуализацией данных, и сама по себе визуализация данных — это задача, которая как уже в начале было сказано, решается на разных уровнях. Во-первых, визуализация данных применяется для поискового анализа. Допустим, у нас есть какая-то база данных, мы о ней ничего ещё не знаем, или выборка каких-то респондентов, выборка любых объектов, о которых в данную секунду ничего не известно. Построив график частотного распределения, мы уже создаём визуализацию начальную. Зачем? Для того, чтобы понять, как эти данные распределены. В этот момент мы занимаемся поисковым анализом. Мы ещё не знаем ничего, пытаемся сделать начальные выводы какие-то о характере наших данных. Дальше, предположим, мы уже установили какие-то основные характеристики наших данных. Мы пытаемся в этот момент проверить какие-то гипотезы. Ну, допустим, у нас есть данные о поведении пользователей сайта. Мы знаем, что самих пользователей в данной выборке, порядка тысячи человек. Эта выборка относится к одному дню посещения нашего сайта. Мы пытаемся проверить гипотезу о том, что среднее время посещения нашего сайта этими пользователями составляет пять минут. Или, например, о том, что среднее число страниц, посещенных нашими пользователями, составляет четыре страницы. Это гипотеза. Как мы её можем проверить? Построив соответствующие диаграммы, например, диаграмму типа «ящик с усами», на которой показано распределение, собственно, наших временных характеристик или характеристик того, сколько страниц эти пользователи посещают. Это, соответственно, анализ уже связанный с проверкой гипотез. Ну, и наконец, в принципе, сюда же относится презентация данных. Мы уже получили некие зависимости, получили подтверждение, что эти зависимости действительно существуют, и теперь эти зависимости нужно представить в наиболее понятном для конечного заказчика виде. Предположим, что у нас было тысяча переменных, по каждой переменной мы построили некие частотные диаграммы, и теперь требуется отобрать из этих тысячи переменных самые важные. Эти самые важные переменные, допустим десять, представить в наиболее выгодном виде и, может быть, представить их на одном слайде. Вот это уже презентация данных. То есть поиск наиболее удобной, полной и системной для восприятия формы для того, чтобы все наши данные помещались компактно и выгодно с точки зрения именно представления информации. То есть здесь уже анализа нет никакого, здесь попытка найти удобную форму. Эти все три задачи относятся к визуализации данных.