Повторим, что мы узнали за эту неделю. Мы узнали, что для работы с интернет сайтами нам требуются два дополнительных модуля: модуль Requests и модуль Beautiful Soup. Модуль Requests — позволяет скачать страницу из Интернета с помощью метода GET. С помощью атрибута Status Code, мы можем проверить, что страница действительно успешно загрузилась, он должен быть равен числу 200. С помощью атрибута Encoding, мы можем указать верную кодировку. С помощью функции Beautiful Soup, мы можем передать ответ от скачанной веб-страницы ответу сервера из интернета в введенье модуля Beautiful Soup и благодаря этому начать как-то разбираться и извлекать данные. В некоторых случаях простого обращения к атрибуту Encoding для установки правильной кодировки будет недостаточно. В этом случае нам придется воспользоваться методом Content Decode и передавать результат работы этого метода в Beautiful Soup. Вне зависимости от того каким образом мы указали правильную кодировку, дальнейшие наши действия никак не меняются. Дальше мы работаем с модулем Beautiful Soup. Модуль Beautiful Soup позволяет нам искать теги, извлекать из тегов информацию, например, мы можем узнать, найти там какую-нибудь ссылку, извлечь из нее адрес следующей страницы на сайте и узнать как эта ссылка выглядит, каким текстом она показывается посетителю сайта. Кроме этого, у метода Find мы можем указать в качестве цели не просто тег, а тег с каким-то конкретным текстом внутри, например, мы можем на странице из 11 разных ссылок найти конкретную ссылку на статью о Драко Малфой, передав его имя в качестве атрибута текста. Список всех ссылок или всех других тегов, мы можем найти с помощью команды Soup Find All и так как это список, мы можем его перебрать уже знакомым нам способом с помощью цикла For. Кроме этого, если вдруг наш сайт устроен циклически, то есть у него нет меню, из которого можно извлечь все адреса, всех остальных страниц, а на каждой странице нужно искать новую ссылку, мы можем адаптировать известный нам цикл While True для циклического поиска ссылок. Повторим важные вещи про устройство сайтов. Сайты написаны с помощью языка HTML, этот язык состоит из тегов, у тегов могут быть атрибуты, теги можно вкладывать друг в друга, теги могут быть одиночными. У каждого сайта есть примерно похожая друг на друга структура, состоящая из технической части, указывающая, что это именно язык HTML, из технической части, которая нужна поисковикам и из части содержимого, которое видно на экране. Кроме этого есть множество тегов, которые позволяют оформлять таблицы, такие как Table Caption, которые позволяют задать таблицу и ее заголовок тега TR и TH, которые позволяют задавать строчку в таблице и выделенные заголовочные ячейки, также тега TD, который позволяет указывать обычные ячейки. На этом наш экскурс в использование материалов веб-сайтов завершен. До встречи на следующей неделе, когда мы будем повторять все материалы и попробуем разобраться еще раз с анализом данных таблиц на примере достаточно большой таблицы на одной странице.