[ЗВУК] И все же
люди пытались собирать геномы, собирали их вполне успешно.
Одним из наиболее старых алгоритмов сборки является так называемый
Overlap-Layout-Consensus, то есть это подход,
который находит все перекрывания между маленькими фрагментами,
которые были получены с сиквенсных инструментов.
Эти фрагменты называются ридами или прочтениями.
Наглядно этот подход можно изобразить таким
образом: то есть эти все фрагменты выравниваются друг против друга,
находя наилучшее соответствие, затем они все объединяются в консенсус,
и таким образом собирается информация о геноме.
Этот подход был использован на протяжении довольно долгого времени и в
основном применялся для старых технологий, длина ридов которых
позволяла проводить такой анализ перекрываний ридов.
Однако с появлением новых сиквенсных технологий возникли проблемы.
Во-первых, это очень короткие риды,
и стало довольно трудно находить перекрывания между ними, а кроме того,
новые технологии производят настолько больше этих маленьких фрагментов,
что компьютерная задача, которая стоит в связи с увеличением числа фрагментов,
оказалась не по зубам этим старым сборщикам.
На помощь этому подходу пришел De Bruijn grahp.
Его суть заключается в том, что коротенькие риды разбиваются на
маленькие фрагменты длиной k — так называемый k-mer.
В нашем примере длина такого разбиения, такого шага будет 2.
И мы разобъем нашу последовательность на фрагменты с перекрыванием в 1 нуклеотид.
То есть мы разбиваем на AC, CG, GT, TC и TA.
Теперь, если следовать последовательности,
мы идем от AC к CG с перекрыванием в 1 нуклеотид, затем мы проходим до GT,
и таким образом мы уже восстановили последовательность ACGT.
Однако если вы присмотритесь,
последовательность CGT повторяется в этом маленьком кусочке дважды.
Поэтому наш следующий шаг идет от GT к TC,
затем от TC к CG, и дальше до восстановления полной последовательности.
Еще раз повторю: разбиения происходили вот таким вот образом с перекрыванием в 1 шаг,
и мы прошли по этой цепочке, и даже маленький повтор не помешал нам в этом.
Этот слайд я оставлю вам и надеюсь, вы получите удовольствие.
Если вы сумеете прочитать фразу, зашифрованную здесь,
значит вы совладали с графом De Bruijn.
Одной из важнейших проблем, приводящих к сложностям к сборке генома,
относится наличие повторов.
Повторами называются идентичные или практически идентичные последовательности,
которые встречаются больше чем 1 раз в геноме,
и расположены они в различных местах, и присутствуют с в разном количестве копий.
Существует несколько типов повторов.
Это тандемные повторы или повторы, распространенные, то есть распределенные
по хромосоме каким-то определенным или случайным образом.
Риды, то есть фрагменты прочтения,
принадлежащие к разным копиям одного и того же повтора,
являются идентичными и представляют собой проблему для сборщика,
и, таким образом, приводят к ошибкам в геноме, в сборке генома.
Давайте рассмотрим пример неправильной сборки повторов.
Зеленым отмечены области,
которые встречаются больше чем 1 раз в нашем теоретическом геноме.
На данный момент они расположены в разных контигах и не связаны между собой.
Чем же определилось такое расположение,
и действительно ли они должны быть так расположены?
Если мы рассмотрим внимательно, как распределилась информация о парных ридах,
то есть ридах, которые принадлежат к одному и тому же фрагменту ДНК,
то мы увидим ошибки и увидим, что они расположены не таким образом, как нужно.
Если на этапе финиширования мы сумеем разрешить эту проблему,
то мы найдем ответ на вопрос и исправим ошибку в автоматической сборке генома,
а именно: на нижней части рисунка представлен реальный геном.
И отсюда мы делаем интересный вывод: оказывается, эта зеленая область,
то есть этот повтор, существует дважды в нашем геноме.
На первых этапах, когда ученые учились подобным методам и составляли алгоритмы,
такие результаты проверялись экспериментальными методами с помощью PCR,
и затем прекратили это делать, когда эволюировали созданные [НЕРАЗБОРЧИВО].
Однако повторы не являются единственной проблемой,
приводящей к ошибкам в сборке и создающей проблему ассемблерам.
К ним также относится контаминация, то есть примеси ДНК,
не относящиеся к нашему геному; также артефакты PCR.
Как вы вскоре узнаете, все сиквенсные технологии,
особенно технологии нового поколения, они все используют этап PCR,
и в результате этого возникают фрагменты с мутациями и химерные фрагменты.
Кроме того, разного рода технологии плохо умеют прочитывать гомополимеры.
К ним, например, относится 454 или Ion Torrent — технологии,
о которых вы тоже услышите в ближайших лекциях.
А также неубранные из ридов технологические фрагменты,
такие как праймеры, адаптеры точно также вызывают проблемы
у сборщиков, и они не знают, что с ними делать.
Если этап очистки данных до assembly был проведен некачественно,
то то это вызовет проблему и также приведет к ошибкам.
Ну и полиплоидные геномы, о которых мы не будем рассказывать в рамках этой лекции,
тоже приводят к большим проблемам в сборке.
[ЗВУК] [ЗВУК]
[ЗВУК]