Проекты

Выравнивание результатов секвенирования на геном вируса Ebola

Работа призёра конкурса проектов и исследований «Старт в медицину» открытой городской научно-практической конференции «Старт в медицину» в секции «Биотехнология и биоинженерия в медицине»

Направление работы: Биоинформатика
Авторы работы: ГБОУ Школа № 2107
Предметы: Биология, Информатика
Классы: 10 класс
Мероприятия: Конкурс проектов и исследований «Старт в медицину» открытой городской научно-практической конференции «Старт в медицину» 2021 года

Актуальность

В связи с обострением эпидемиологической ситуации в мире становится крайне актуальной задача быстрой идентификации природы патогенов. Современным быстрым и точным методом диагностики является секвенирование с выравниванием на референсный геном. Секвенирование ДНК или РНК человека c последующим выравниванием ридов на геном возбудителя болезни является точнейшим методом диагностики, позволяет в кратчайшие сроки установить причины заболевания и назначить необходимую процедуру лечения.

Цель

Анализ работы программ для выравнивания результатов секвенирования на геном вируса Ebola.

Задачи

1. Освоить работу с банками геномов и белков, банками результатов секвенирования.

2. Освоить геномный браузер IGV и интегрированный программный инструмент Ugene, программный пакет BLAST, программный пакет SRAtools.

3. Освоить биоинформатические инструменты Bowtie2, BWA, Minimap2, Hisat2, SAMtools и BAMtools.

4. Используя освоенные инструменты, выровнять результаты секвенирования на геном вируса Ebola. Провести сравнительный анализ их работы.

Оснащение и оборудование, использованное в работе

• Компьютер

• Операционная система Ubuntu

Описание

Для работы были взяты данные секвенирования, которые хранятся в формате SRA в виде парных прочтений, поэтому для распаковки использовался ключ --split-3 и выравнивались файлы как с прямыми прочтениями, так и с обратными.

При помощи программы fastq-dump был распакован SRA из пакета SRA Toolkit. В результате были получены два файла формата FASTQ с прямыми и парными прочтениями.

Для выравнивания использовался геном вируса Ebola по ссылке:

https://www.ncbi.nlm.nih.gov/nuccore/AF086833.2?report=genbank.

Использовались оба формата хранения генома: GNB – с аннотациями и FASTA – просто геномная последовательность.

Далее решалась задача выравнивания результатов секвенирования на геном вируса Ebola. Все выравнивания проводились на ОС Ubuntu с использованием виртуальной машины, установленной на ОС Windows 7 на компьютере с процессором Intel Core i7-2600 3.4GHz и ОЗУ 16Gb согласно инструкциям для выбранных программ и с настройками «по умолчанию».

На сайте NCBI были взяты результаты секвенирования транскиптома человека, больного лихорадкой Ebola, и геном вируса Ebola. Проводились одинаковые по содержанию, но разные по форме действия для 4-х программ выравнивания (BWA, Bowtie2, Minimap2 и Hisat2):

- установка программы,

- индексирование на геном вируса Ebola,

- выравнивание прямых прочтений,

- удаление из файла невыравненных прочтений,

- выравнивание обратных прочтений,

- удаление из файла невыравненных прочтений,

- расчёт статистики специально написанной программой сразу для двух файлов (прямых и обратных прочтений).

Общая схема работы с данными при выравнивании и его анализе

Была написана небольшая программа на языке Python, позволяющая вычислить статистику для полученных выравниваний даже без использования дополнительных библиотек для чтения форматов SAM и BAM. Также программа позволяет рассчитать статистику сразу и для прямых, и для обратных прочтений.

В работе использовались данные, полученные на секвенаторе 2-го поколения Illumina. В этом секвенаторе используется метод коротких прочтений.

Результаты

1. Данные секвенирования были удачно выравнены на геном вируса Эболы при помощи 4-х программ выравнивания.

Результаты анализа выравнивания

2. Программа BWA получила самое большое число выравненных ридов и с высоким качеством, но время её работы самое большое.

3. Отставание Hisat2 объясняется тем, что с настройками «по умолчанию» данная программа оставляет в выравнивании только риды с максимальным качеством.

4. Программа Minimap2 значительно выделяется по скорости выравнивания и превосходит BWA в 4,3 раза. Немного отстает от Minimap2 программа Hisat2. Bowtie2 значительно медленнее, чем Minimap2.

5. Программы BWA, Bowtie2 и Minimap2 выровняли примерно одинаковое количество нуклеотидов, которое с точностью до 3% соответствует таксономическому анализу, проведённому BLAST.

Выводы

1. Из исследованных программ выравнивания наибольшую производительность продемонстрировала Minimap2 при сохранении очень хорошего качества выравнивания и количества выровненных нуклеотидов.

2. Исследуемые программы затратили на выравнивание 6,7 миллионов парных прочтений на геном размером 18871 bp от 1 до 5 мин. Это становится всё более перспективным.

3. Благодаря эффективности используемых в программах выравниваний алгоритмов для решения поставленной в данной работе задачи не потребовалось больших вычислительных ресурсов.

Перспективы использования результатов работы

С использованием новых технологий скорость и точность секвенирования постоянно растёт. Метод диагностики заболеваний при помощи секвенирования с последующим выравниванием на геном становится всё более перспективным.

Награды/достижения

Международный конкурс научно-технических работ школьников «Старт в Науку» – диплом I степени.

Мнение автора

«Конкурс проектов и исследований «Старт в медицину» дал мне хороший толчок в развитии моего проекта. Я получила новый опыт, участвуя в научно-практической конференции»