[МУЗЫКА] А теперь давайте посмотрим, как, собственно, наши данные выглядят. Наиболее распространенный формат представления данных в молекулярной биологии — это формат FASTA. Он выглядит следующим образом: каждая запись в нем состоит из двух строк. Первая строка, которая начинается со знака >, в ней у нас идентификатор нашей последовательности. Это может быть ее название или ее номер в базе данных, или все, что угодно, то есть любая запись, по которой мы можем отличить ее от всех остальных. А после нее в следующей строке идет сама последовательность. Так можно записывать как нуклеотидные, так и аминокислотные последовательности. Те данные, которые мы получаем с секвенатора, имеют немножко другой формат. Он называется FASTQ и выглядит следующим образом: первая строчка — это тоже идентификатор. Правда, здесь он начинается со значка @. Вторая строчка — это тоже сама последовательность, третья строка обычно остается пустой. И в ней может содержаться какая-нибудь служебная информация. А в четвертой для каждого из наших нуклеотидов записано значение качества, то есть нашей уверенности в том, что эта буква определена правильно. Что же такое это самое «качество»? Начиная еще с самых первых моделей капиллярных сэнгеровских секвенаторов, для записи качества используется шкала Phred. В этой шкале каждому нуклеотиду соответствует значение, которое логарифмически зависит от вероятности ошибки. То есть, если у нас есть последовательность, у которой у всех нуклеотидов значение 10, — это значит, что у нас в среднем встречается 1 ошибка на каждые 10 букв. Если значение 20, — это 1 ошибка на каждые 100 нуклеотидов, если 30 — 1 на 1000 и так далее. Можно предъявлять разные требования к качеству, но, как правило, мы работаем с данными, у которых значение Phred не ниже 20. Мы видим, что для записи качества необходимо два символа, а в формате FASTQ нам нужно представить их в виде одного символа, который будет расположен напротив того или иного нуклеотида. Эта проблема решается следующим образом: в компьютерах любой символ, любую букву, цифру, любой значок можно представить в виде определенного кода, который записан в таблице ASCII. Поэтому мы можем взять символы, которые соответствуют нашему значению, например, там, значению 20, поставить его напротив нуклеотида с этим качеством, и все всё поймут. Вот. Но дело в том, что первые 32 символа в этой таблице — это пробел, перенос каретки, табуляция и прочие символы, которые записать невозможно. Поэтому для записи используют шкалу Phred+33, в которой отсчет начинается с 33-го символа, то есть 33-й символ мы считаем первым, и поэтому качество 1 — это восклицательный знак. Если нужно записать качество 10, то мы берем 43-й символ, вот он наш плюсик. А на этом рисунке представлены, как я уже говорил, разные форматы записи качества. У нас есть несколько разных шкал. Самая первая — сэнгеровская Phred+33, в которой идет с 33-го по 73-й символ. В некоторых других приборах и версиях программного обеспечения встречаются другие шкалы, в которых отсчет идет, например, с 64-го символа. Поэтому важно знать, с каким именно форматом мы работаем, потому что один и то же символ в разных шкалах может означать совершенно разные значения качества. [МУЗЫКА]