Об этом курсе

100% онлайн

Начните сейчас и учитесь по собственному графику.

Гибкие сроки

Назначьте сроки сдачи в соответствии со своим графиком.

Промежуточный уровень

Прибл. 25 часа на выполнение

Предполагаемая нагрузка: 6 недель обучения, 6-8 часов в неделю...

Русский

Субтитры: Русский

100% онлайн

Начните сейчас и учитесь по собственному графику.

Гибкие сроки

Назначьте сроки сдачи в соответствии со своим графиком.

Промежуточный уровень

Прибл. 25 часа на выполнение

Предполагаемая нагрузка: 6 недель обучения, 6-8 часов в неделю...

Русский

Субтитры: Русский

Программа курса: что вы изучите

Неделя
1
5 ч. на завершение

Введение, булев поиск

Этим занятием открывается цикл лекций, посвященных информационному поиску. Мы начнем с небольшого экскурса в историю возникновения вэб-поиска, изучим базовые понятия и узнаем, как можно классифицировать разные поисковые системы. Базовый вид поиска – это булев поиск. Мы рассмотрим, как он устроен и как можно исполнять запросы пользователей к такому поиску. Но недостаточно использовать оригинальный текст – чтобы учесть разные морфологические формы одного и того же слова, применяются различные этапы нормализации текста. Это применимо не только к документам, но и к запросам. Отдельно стоит рассмотреть такие важные усовершенствования булева поиска, как координатный поиск, которые учитывает, где именно в тексте находятся конкретные слова, и обработку полноценных фразовых запросов....
14 видео ((всего 70 мин.)), 2 материалов для самостоятельного изучения, 5 тестов
14 видео
МФТИ1мин
История поисковых систем5мин
Базовые понятия4мин
Классификация поисковых систем4мин
Основы булева поиска. Логические операции3мин
Матрица инцидентности и переход к обратному индексу3мин
Обработка запросов с обратным индексом4мин
Зачем нужна нормализация18мин
Определение языка3мин
Стемминг2мин
Лемматизация текста4мин
Фразовые запросы4мин
Координатный индекс3мин
2 материала для самостоятельного изучения
Mail.Ru Group5мин
Решение10мин
4 практического упражнения
Базовые понятия информационного поиска8мин
Булев поиск и матрица инцидентности14мин
Нормализация текста. Стемминг. Лемматизация10мин
Фразовые запросы. Координатный индекс6мин
Неделя
2
4 ч. на завершение

Поисковый индекс

В основе текстового информационного поиска лежит концепция обратного индекса. Эта неделя посвящена разным методам его построения, расширения за счет дополнительной информации и улучшения работы с ним благодаря сжатию словаря и ускорению работы с обратным индексом....
9 видео ((всего 48 мин.)), 1 материал для самостоятельного изучения, 3 тестов
9 видео
Построение индекса на реальной коллекции документов8мин
Блочное индексирование. Распределенное индексирование6мин
Инкрементальная индексация3мин
Параметрические индексы и зонные индексы2мин
Сокращение индекса, стоп-слова5мин
Сжатие словаря6мин
Сжатие инвертированного файла7мин
Skip-листы2мин
1 материал для самостоятельного изучения
Решение10мин
2 практического упражнения
Обратный индекс, индексация10мин
Сжатие индекса12мин
Неделя
3
5 ч. на завершение

Нечёткий поиск

Эта неделя посвящена двум большим темам, связанным между собой: исправление опечаток в запросах пользователей и выполнение неточных запросов, в которых пользователь сознательно скрывает часть слова за специальным знаком – "*"....
9 видео ((всего 54 мин.)), 1 материал для самостоятельного изучения, 4 тестов
9 видео
Структуры для словарей. Деревья8мин
Нечёткий поиск5мин
Перестановочный индекс3мин
K-граммный индекс5мин
Расстояние редактирования10мин
Динамический алгоритм нахождения расстояние между словами3мин
Фонетические исправления3мин
Исправления в контексте4мин
1 материал для самостоятельного изучения
Решение10мин
3 практического упражнения
Структуры данных8мин
Нечеткий поиск8мин
Исправление ошибок14мин
Неделя
4
4 ч. на завершение

Ранжирование

Выполнение запросов пользователей на большом корпусе документов часто приводит к тому, что запросу удовлетворяет слишком много документов. Для того, чтобы пользователю не пришлось просматривать все найденные документы, поисковая система может отобрать из них только лучшие и показать пользователю в порядке "полезности". Этим занимается ранжирование, о котором и пойдет речь в этой неделе....
8 видео ((всего 41 мин.)), 1 материал для самостоятельного изучения, 3 тестов
8 видео
Текстовое ранжирование5мин
Модель мешка слов6мин
Представление документов в виде векторов. Расстояние между документами3мин
Tf-Idf4мин
Принцип вероятностного ранжирования3мин
Бинарная модель независимости6мин
Переход от BIM к BM258мин
1 материал для самостоятельного изучения
Решение10мин
2 практического упражнения
Текстовое ранжирование10мин
Вероятностная модель ранжирования14мин

О Московский физико-технический институт

Московский физико-технический институт (неофициально известный как МФТИ или Физтех) является одним из самых престижных в мире учебных и научно-исследовательских институтов. Он готовит высококвалифицированных специалистов в области теоретической и прикладной физики, прикладной математики, информатики, биотехнологии и смежных дисциплин. Физтех был основан в 1951 году Нобелевской премии лауреатами Петром Капицей, Николаем Семеновым, Львом Ландау и Сергеем Христиановичем. Основой образования в МФТИ является уникальная «система Физтеха»: кропотливое воспитание и отбор самых талантливых абитуриентов, фундаментальное образование высшего класса и раннее вовлечение студентов в реальную научно-исследовательскую работу. Среди выпускников МФТИ есть Нобелевские лауреаты, основатели всемирно известных компаний, известные космонавты, изобретатели, инженеры....

О Mail.Ru Group

Mail.Ru Group, международный бренд My.com – крупнейший холдинг в России по дневной мобильной аудитории. В рамках стратегии communitainment Mail.Ru Group развивает единую интегрированную платформу коммуникационных и развлекательных интернет-сервисов. Компании принадлежат лидирующий почтовый сервис, один из крупнейших порталов в рунете, крупнейшие русскоязычные социальные сети – ВКонтакте, Одноклассники и Мой Мир, а также два популярных в России и СНГ мессенджера – Агент Mail.Ru и ICQ....

Часто задаваемые вопросы

  • Зарегистрировавшись на сертификацию, вы получите доступ ко всем видео, тестам и заданиям по программированию (если они предусмотрены). Задания по взаимной оценке сокурсниками можно сдавать и проверять только после начала сессии. Если вы проходите курс без оплаты, некоторые задания могут быть недоступны.

  • Оплатив сертификацию, вы получите доступ ко всем материалам курса, включая оцениваемые задания. После успешного прохождения курса на странице ваших достижений появится электронный сертификат. Оттуда его можно распечатать или прикрепить к профилю LinkedIn. Просто ознакомиться с содержанием курса можно бесплатно.

Остались вопросы? Посетите Центр поддержки учащихся.