[МУЗЫКА] А теперь давайте посмотрим, как все это выглядит на реальных данных. В качестве примера я взял данные из статьи, которая посвящена анализу генома бактерии Legionella Pneumophila. Эти бактерии часто размножаются в системах охлаждения. Те, кто смотрел сериал «Доктор Хаус», возможно помнят серию, посвященную этой болезни. В данной статье исследовался штамм, который вызвал вспышку этой болезни в Квебеке в 2012 году. У нас есть следующие исходные данные: геном этой бактерии секвенирован на платформе MiSeq, и приготовлены две библиотеки: библиотека Paried end с размером вставки порядка 500, и библиотека Mate pair с размером вставки в 3700. Давайте вспомним, собственно, что такое Paired end, что такое Mate pair и чем они отличаются. Когда мы готовим библиотеку, если мы делаем данные Paired End, то есть «парное чтение», у нас все обстоит следующим образом. Вот мы берем наш геном и нарезаем его на небольшие кусочки длиной 300—400—500 нуклеотидов. Вот... И дальше каждый из этих кусочков отправляется у нас в секвенатор и читается с обеих сторон, с одной и с другой. Длина этих чтений зависит от используемых реактивов и может составлять 100—200—250 пар нуклеотидов. И в результате мы получаем два кусочка... вот так вот... ну, скажем, по 200 нуклеотидов, и расстояние от начала первого до конца второго у нас будет, скажем, 500. То есть длина вот тех кусков, на которые мы нарезали наше ДНК. Это значение называется «размер вставки». В случае Mate pair все чуть-чуть сложнее. Мы опять берем наш геном и нарезаем его уже на довольно большие фрагменты, порядка 3000—4000—5000 тысяч нуклеотидов. Затем мы берем каждый такой фрагмент... Просто так его в секвенатор отправить не получится, он слишком большой для этого, поэтому поступают следующим образом: вот мы взяли такой фрагмент, вот скажем он начинается в точке А, заканчивается в точке В. Вот мы взяли и соединили вот эти концы с помощью адаптера. Вот, так что здесь у нас получается конец А, а здесь — конец В. Дальше получившуюся кольцевую молекулу мы нарезаем, и из этой смеси отбираем только те участки, в которых у нас есть наш адаптер, прицепленный к нему фрагмент. Соответственно, вот здесь у нас точка А, здесь у нас точка В. Эти фрагменты уже длины достаточной для того, чтобы отправить их в секвенатор, и они считаются с одного конца и с другого. У нас получаются фрагменты точно такие же, порядка, там, 200 пар оснований, но расстояние между ними уже составляет несколько тысяч нуклеотидов. И причем мы видим, что, скажем вот, этот фрагмент направлен в сторону точки А, то есть вот сюда, а этот фрагмент — в сторону точки В, вот сюда. Поэтому, если парные риды у нас расположены вот так, то Mate pair — вот так. Вот я снова запускаю программу FastQC, открывается ее окошко, выбираю File, Open, и иду в папку, где у меня уже заботливо сложены наши исходные данные. И вот я выбираю два файла, которые соответствуют библиотеке Paired end. Почему два файла? Потому что в файле с цифрой 1 у нас находятся прямые риды, то есть те, которые у нас прочитаны, грубо говоря, с левого конца молекулы. А с циферкой 2 — соответствующие им обратные риды, прочитанные с другого конца. Ну давайте сейчас начнем анализ, и потом посмотрим сначала на прямые, а потом на обратные. Вот анализ идет. Еще буквально несколько секунд — и мы увидим, насколько эти данные хороши. Так, готово. Вот давайте посмотрим. Мы видим, что у нас фрагменты длиной 250 нуклеотидов, у нас их почти 600 000 и GC-состав 40. Тут за нас уже заботливо расставили галочки и крестики. Ну давайте посмотрим на самые важные графики и начнем, конечно, с качества. И мы видим, что картинка у нас тут не очень радостная. Во-первых, это падение качества к 3 штрих концу, причем довольно заметное, вот, и во-вторых, что интересно, хоть у нас фрагменты длиной 250, но, начиная где-то со 170 буквы, у нас практически нет хороших нуклеотидов. Поэтому наши риды можно будет смело обрезать по длине примерно на этом уровне. Так, ну и здесь мы видим, что у нас не было никаких проблем с прибором. Ну вот это распределение наших ридов по качеству, мы видим, что их большая часть, порядка 19—20. Ну, будем надеяться, что когда мы избавимся от большого количества плохих ридов, это распределение сдвинется немножко вправо. А вот это уже интересно. Вот, мы видим, что в самом начале всех ридов у нас довольно неравномерное распределение по различным нуклеотидам. То есть можно даже попробовать восстановить. Мы видим, что у нас в начале у очень многих ридов идет последовательность GTTAACT, ну вот, то есть это может указывать на то, что у нас не был удален праймер или на что-то подобное. И мы видим в конце, тоже начинается с той самой 170-й позиции примерно, у нас начинается довольно серьезное отклонение от нашего привычного распределения. Так, на что еще можно обратить внимание? Ну распределение по длине — все у нас одинаковой длины. А вот адаптеры. Вот программа, она у нас проверяет наличие наиболее часто встречающихся адаптеров, и мы видим, что у нас есть некоторая примесь последовательности, которая называется Nextera Transposase. Этот фермент используется при приготовлении Mate pair библиотек, и от него тоже, конечно, нужно будет избавиться. Давайте теперь посмотрим на обратные данные. Мы видим, что тут ровно столько же ридов, то есть каждому прямому риду соответствует свой обратный, вот, и с качеством тут тоже все не очень хорошо. Вот... Точно так же у нас есть отклонения от привычных распределений в начале и в конце ридов, вот. И точно так же мы видим примесь адаптеров. Теперь давайте взглянем на Mate pair. Они точно так же в двух файлах, прямом и обратном. Вот, процесс идет, еще немножко — и готово. Вот, мы видим, что их немножко поменьше, 200 000, они тоже длиной 250 и распределение качества... Да, тут тоже есть над чем поработать. Мы видим тут еще более серьезные отклонения в распределении нуклеотидов, и среди перепредставленных последовательностей мы видим TruSeq Adapter, то есть адаптеры, которые используются для приготовления наших библиотек. Здесь даже показано, сколько их. И мы видим, что они встречаются ближе к середине и к концу рида. В обратных ридах у нас примерно такая же картина. Тоже отклонения, тоже адаптеры... тоже адаптеры... Ну давайте подумаем, что с этим можно сделать. [МУЗЫКА]