Здравствуйте, уважаемые слушатели! Разрешите вас приветствовать на курсе «Машинное обучение и большие данные». Этот курс посвящен таким актуальным понятия как, собственно разные варианты «искусственного интелекта», который основан на алгоритмах машинного обучения, на методах, которые относятся к разделу, который называется «Data mining», который относится к обработке текстов, обработке изображений и т.д. Все эти методы были созданы достаточно давно. Однако, именно сейчас они приобрели особую актуальность в силу того, что их теперь можно применить к так называемым «большим данным». Сами по себе большие данные это понятие, которое появилось относительно недавно в одной из работ, и в целом их можно характеризовать некоторыми следующими аспектами. В целом есть разные модели, которые их описывают. Ну вот одна из моделей состоит из некоторых концептов, называющихся на букву V английскую. А именно Variety. Variety — это понятие, обозначающее разнообразие самих данных. Сейчас сами по себе данные хранятся в разных источниках. Скажем, у нас есть тексты, которые хранятся в социальных сетях, у нас есть тексты, которые хранятся, допустим, в логах веб-серверов. У нас есть изображения, которые находятся как на различных сайтах, корпоративных или частных. У нас есть звуковые файлы. У нас есть поток каких-то реальных данных с датчиков, скажем, в рамках концепции интернета вещей и так далее. Все это разнообразие фактически является одним из признаков больших данных. Если мы работаем с одним источником, скорее всего эти данные большими назвать нельзя. Кроме того, что сами по себе источники являются разнообразными, следующая V — это объем. В целом нет устоявшегося понятия, что же такое объем для больших данных, который является минимальным. В некоторых случаях это гигабайт, в некоторых терабайт, в некоторых это петабайты. Ну допустим, данные, которые хранятся в Яндексе составляют порядка 15 петабайт. В целом это значительно превосходит все, что человечество создало до сих пор. Таким образом, сами по себе данные, которые где-то хранятся должны тоже обладать каким-то объемом. Следующая V — Velocity — это скорость. Скорость чего? Скорость либо поступления данных, либо скорость обработки этих данных. Есть большие данные, которые поступают в реальном времени. Например, у операторов Телекома постоянно эти данные по звонкам собираются, по использованию интернет-услуг и так далее. Вот весь этот поток от всех сотен миллионов человек и абонентов, и отдельных устройств требуется тоже как-то обрабатывать. Соответственно, эта скорость тоже является одним из признаков того, что эти данные являются большими. Кроме этого есть такие понятия как Validity, т. е. по сути говоря, надежность. Сами по себе данные могут обладать разным качеством. Само качество данных проистекает из того, что их надо как-то заносить, как-то хранить, как-то обрабатывать. На каждом из этих шагов могут возникать разные ошибки, технические, человеческие и так далее. В целом сама по себе эта надежность тоже представляет собой важный фактор, когда мы работаем с большими данными. Следующий вариант, который мы хотим рассмотреть, — это Value. Value в данном случае это ценность самих данных. Сами по себе данные могут быть важными или неважными, актуальными, неактуальными. И вот эта самая актуальность и неактуальность, важность для наших целей или так называемая релевантность это и есть Value. Сами по себе данные, если мы их никак не обрабатываем, они ценностью особой могут и не обладать. Однако для каких-то задач эта ценность возникает, для каких-то может опять снизится. В целом Value определяется задачей, с которой мы имеем дело. Ну и наконец, следующий элемент — это Veracity. Veracity фактически это один из вариантов надежности. Связано это с тем, что сами по себе наши данные, которые мы обрабатываем, они обрабатываются разными способами. Доверие к этим способам может быть разным. Скажем, мы дальше рассмотрим, такие методы как нейронные сети. И вот так именно этот параметр может вызывать разные вопросы. Разные методы могут давать разные результаты. Разные методы могут давать воспроизводимые результаты, может быть нет. И в целом очень многие методы, которые мы здесь будем рассматривать, являются каким-то аналогом черного ящика, и, стало быть, они не являются интерпретированными. Если мы эти методы применяем, то мы сталкиваемся вот с этим понятием V. Ну и наконец, если мы все эти 6 элементов соберем вместе, если они одновременно присутствуют, то будем считать, что эти данные действительно большие. Об объемах этих данных уже кое-что я сказал до этого, в целом можно еще привести такие цифры как то, что рынок самих технологий, рынок программного обеспечения и так далее, который связан с большими данными, по некоторым оценкам составит уже через год около 200 миллиардов долларов. Конечно эта оценка уже заниженная, потому что сами по себе большие данные уже давно становятся одним из неотъемлемых элементов работы компании, даже не очень крупной. Поэтому в целом этот рынок, скорее всего, составляет уже не сотни миллиардов долларов, а может быть и до триллионов долларов в ближайшей перспективе. Что касается больших данных, что еще следует отметить? Сами по себе большие данные помимо того, что они накапливаются из разных источников, и в целом они по-разному обрабатываются разными компаниями, но эти данные постепенно начинают храниться и обрабатываться по определенному принципу. Эти принципы уже ложатся в основу неких устоявшихся архитектур. Допустим, как вы наверное знаете, есть такая архитектура, связанная с хранением данных, которая называется Hadoop. Сам по себе этот Hadoop просто файловая система, которая позволяет хранить различные неструктурированные данные. Причем эта система позволяет создавать их репликацию, т. е. эти данные хранятся надежно, позволяет поддерживать определенную скорость доступа к ним и так далее. В целом сама по себе эта система хранения легла в основу очень многих новых архитектур, которые теперь используются, как в репозитарном секторе, так и отдельно. Значит по поводу этих архитектур, давайте немножко поговорим, какие уровни у этих архитектур собственно присутствуют. В самом низу, очевидно, есть уровень инфраструктуры. Что такое инфраструктура? Это, по сути, уровень, связанный именно с железом. Т. е. именно с серверами, которые могут быть по-разному организованы, скажем, облачные технологии здесь могут быть использованы, либо какие-то цоды, которые поддерживают распределение либо памяти разных устройств на одну машину, либо процессорные мощности, либо жесткой памяти, где все это хранится, и доступ к этим ресурсам как к одному источнику. Все это решается на самом нижнем уровне инфраструктурном. Дальше если мы все это где-то храним, мы храним это в каком-то виде. Вот этот вид это называется уровень хранения. Здесь возникают как раз такая вещь как Hadoop или другие файловые системы, которые позволяют организовывать параллельную работу с этими данными, или, по крайней мере, скоростной доступ к ним. Следующий уровень — это уровень управления. На уровне управления мы эти данные уже пытаемся каким-то образом извлекать. Ну допустим, на этом уровне возникают такие вещи как хранилище данных, т. е. некие представления, некоторые запросы, в общем условно говоря, которые хранят часть данных из исходных больших, которые на предыдущем уровне возникают. Если мы получили запрос, который представляет, скажем, некий подсчет чего-то, что хранится на уровне Hadoop, то дальше это что-то мы можем попытаться визуализировать в виде отчета, в виде какого-то dashboard или в виде какой-то системы, которая позволяет уже проводить некие аналитические взыскания. На этом уровне возникает такое понятие, как BI, т. е. business intelligent. Ну вот в целом все эти уровни присутствуют сейчас в современных архитектурах. И сами эти уровни обязательно, так или иначе, всегда задействуются, когда мы говорим с вами о больших данных. Если говорить о данных, то мы поняли, что эти данные могут быть абсолютно разные. Вот мы их