[ЗАСТАВКА] Большинство программ в биоинформатике написаны под операционную систему Linux или Mac OS и требуют для своего запуска некоторых навыков работы с командной строкой. Для тех, у кого таких навыков ещё нет, мы подготовили это занятие. Мы с вами начнем с установки операционной системы Linux на ваш компьютер. Я рекомендую использовать систему Ubuntu, и мы можем сделать это двумя способами. Во-первых, мы можем зайти на сайт ubuntu.com, скачать там версию этой операционной системы, записать её на загрузочную флешку или компакт-диск и, согласно инструкциям на этом сайте, установить её на свой компьютер в качестве второй операционной системы. Если вы ещё не готовы к этому или хотите просто попробовать как всё это выглядит, мы можем использовать другой вариант. Для этого нам понадобится установить на наш компьютер так называемую виртуальную машину — программу, которая будет эмулировать работу другой операционной системы на вашем компьютере. Для этого зайдём на сайт virtualbox.org в раздел «Загрузки», и здесь вы можете выбрать версию виртуальной машины для вашей операционной системы. После того как вы скачаете и установите её, нам потребуется, собственно, сам файл с образом той системы, которую мы хотим запустить. Его можно будет скачать по ссылке, которая приведена в приложении к нашим лекциям. После того как мы загрузили образ виртуальной машины, два раза щёлкнем по нему, и у нас откроется окно virtualbox. Здесь мы выбираем в списке нашу систему, в данном случае это Bio-Linux, то есть версия Linux уже с предустановленными на нём программами для анализа биологических данных, и нажимаем кнопку «Старт». И мы видим, что у нас появляется окно, внутри которого мы имеем полноценную операционную систему Linux. Вот мы видим перед собой систему Linux, это её графический интерфейс. Многие элементы в нём довольно привычные, даже тем, кто никогда с ней не сталкивался. В ней точно так же есть папки, файлы, можем двойным щелчком на папке посмотреть её содержимое, вернуться обратно, можем перетаскивать файлы из одной папки в другую и обратно. В общем, всё привычно. Основные отличия начинаются, когда мы начинаем использовать терминал. Это специальная программа, её можно вызвать либо щелчком боковой панели, либо комбинацией клавиш Ctrl + Alt + T. Вот мы видим чёрный экран и мигающий курсор, который ждёт наших команд. Давайте посмотрим, какие команды мы можем здесь вводить, и что они делают. Для начала, мы с вами находимся в каталоге, узнать который можно командой pbd. Мы видим, что мы с вами находимся в каталоге home/bi. bi — это наше имя пользователя в данном случае. У каждого пользователя в Linux есть свой собственный личный каталог, который находится в папке home, в котором можно держать все свои данные. Чтобы посмотреть содержимое этого каталога, воспользуемся командой ls. Мы видим тут некоторое количество файлов и каталогов. Чтобы перейти из одного каталога в другой, мы можем воспользоваться командой cd, то есть change directory. Например, я хочу перейти в каталог Desktop. cd Desktop enter И вот система говорит, что мы находимся в каталоге Desktop, я могу точно так же посмотреть его содержимое. Если я хочу вернуться на уровень выше, я могу написать «cd ..», я возвращаюсь на уровень выше. В режиме командной строки мы можем не только переходить из одного каталога в другой, но и создавать новые каталоги и файлы. Например, создадим каталог test, сделаем это с помощью команды mkdir. Напишем ls, убедимся, что этот каталог у нас появился. Вот он, перейдём на него. Видите, мне необязательно писать полностью название всего каталога, я пишу только первую букву и нажимаю клавишу Tab, и если обнаруживается папка или файл, который подходит под эти требования, начинается только с этих букв, то система автоматически подставляет его полное имя. Нажимаю Enter и вижу, что этот каталог пуст. Создадим в нём пустой текстовый файл, это делается командой touch. [ПИШЕТ] Вот я создал файл, вижу, что он появился, теперь давайте в него что-нибудь запишем. Для этого откроем его в каком-нибудь из редакторов, например, в nano. Вот я его открыл и вижу, что в нём ничего нет, можно что-нибудь написать, например, так. [ПИШЕТ] [ПИШЕТ] После того как мы написали, что хотели, мы уходим из этой программы, нажав Ctrl + X, подтверждаем сохранение изменений. Да, мы видим, что у нас файл появился, и мы можем посмотреть его содержимое командой cat. Да, у нас небольшой файл. Вот всё его содержимое на экране. Но что делать, если у нас большой файл, который весь на один экран не поместится? Давайте посмотрим, как работать с такими файлами. Давайте вернёмся в нашу домашнюю директорию, то можно сделать набрав cd~. Такая команда перенесёт нас в свою домашнюю директорию, где бы мы ни были. Вот мы снова здесь. Давайте скопируем в нашу новую папку test файл ls.txt. Копирование файлов выполняется командой cp. Вот первый, собственно, название файла, и говорю, куда его копировать. Нажимаю Enter, перехожу в эту папку, вижу, что он скопирован. Давайте посмотрим этот файл тот же самый с командой cat. Вот мы видим, что, собственно, вся эта история у нас за несколько секунд промелькнула, на экран не помещается. Что делать, если мы хотим посмотреть только самое её начало? На помощь нам придёт команда head. Она показывает только самое начало файла, например, вот так. Этой команде можно указать аргументы, например, сказать head − n и дальше написать, сколько строчек мы хотим посмотреть, например, −20. И мы увидим первые 20 строчек этого текста. Точно так же мы можем посмотреть последние 20 строчек, использовав для этого команду tail. Так, теперь давайте вернёмся обратно на уровень выше, посмотрим, что у нас творится, и давайте удалим тот каталог, который мы только что создали. Это делается командой rm. Просто rm, без всяких аргументов, удаляет файлы, но если мы хотим удалить папку, нужно написать rm − r. Да, мы действительно хотим удалить эту папку, и всё, что в ней находится. Вот нас спросили про каждый из файлов, и про саму папку, всё. А теперь давайте разберёмся с тем, как загружать и устанавливать программы. Мы попробуем это сделать на примере геномного ассемблера SPAdes — программы, которая нам понадобится на следующей неделе для сбора генома из наших фрагментов. Давайте поищем её. Мы видим, что первая же ссылка нам подходит. Мы заходим на сайт разработчика, выбираем пункт «Скачать ассемблер», переходим на страницу загрузки и выбираем версию для Linux, и копируем ссылку на неё. Зная ссылку на файл, мы можем загрузить его точно так же через терминал, с помощью команды wget. Paste. Подождём несколько секунд, и вот наша программа загружена. Но она загружена в виде архива tar.gz — это формат архивов, который используется в Linux. Чтобы его распаковать, нам нужно ввести следующую команду tar − zxf. После этого ссылку на файл, Enter. И вот мы видим, что у нас появилась папка SPAdes. Перейдём в неё, посмотрим, что у нас тут есть. И у нас тут есть две папки. В папке bin у нас находятся исполняемые файлы, собственно, как раз файлы программы, которую мы должны запустить. Перейдём в неё, посмотрим на них. Если мы почитаем документацию к этой программе, то в ней написано, что для её запуска нужно запустить файл с расширением .py. Программа написана на языке Python, поэтому мы вызываем этот язык и с помощью него запускаем эту программу таким вот образом. Вот мы не дали ей никаких параметров, поэтому она вывела нам на экран правило того, как её использовать, то есть список всех основных параметров, которые нужно знать, и, собственно, что означает каждый из них. Мы видим, что эта программа хочет получить на вход файлы с ридами, как минимум, и ей нужно указать директорию, в которой будет сложен весь результат. Давайте попробуем ещё раз. Разработчики этой программы заботливо положили вместе с ней тестовые данные, которые мы сейчас с вами и используем. [ПИШЕТ] [ПИШЕТ] Я выбираю папку test_dataset, нажимаю Tab. Поскольку программа не знает, что я хочу ввести, она показывает мне все варианты, которые возможны, и я выбираю данные для ecoli. ecoli_lk. Цифра 1 у нас означает прямые рида. И тоже самое со вторым файлом. spades/test data_set. И выбираем ридер и в качестве аутпута, ну скажем, я укажу папку ecoli И я укажу её в своей домашней директории. Вот так. Всё, теперь нажимаем Enter и смотрим, как собирается геном. И вот программа закончила свою работу и вывела на экран итоговый отчёт. Сегодня мы с вами научились устанавливать и запускать программы, переходить между каталогами, создавать, копировать, удалять файлы. Теперь у вас есть всё необходимое, чтобы приступать к работе с реальными данными. Удачи!