Разработка интегрированного подхода на основе методов выравнивания последовательностей и глубокого обучения для повышения качества программного конвейера анализа данных полногеномного секвенирования человека
| Название НИОКТР | Разработка интегрированного подхода на основе методов выравнивания последовательностей и глубокого обучения для повышения качества программного конвейера анализа данных полногеномного секвенирования человека |
|---|---|
| Аннотация | В настоящее время наблюдается тенденция к использованию персонализированной и превентивной медицины. Персонализированная медицина – это совокупность методов профилактики, диагностики и лечения основанных на индивидуальных особенностях пациента, в частности – генетических. Анализ генетических данных является вычислительно и алгоритмически сложной задачей. Предлагаемый проект направлен на решение научной проблемы повышения качества анализа генетических данных. Целью проекта является разработка интегрированного подхода на основе методов выравнивания последовательностей и глубокого обучения для повышения качества программного конвейера анализа данных полногеномного секвенирования человека. В результате работы над проектом будут будет разработан масштабируемый программный конвейер анализа данных полногеномного секвенирования человека, реализующий интегрированный подход с применением нового алгоритма на этапе выравнивания и нейросетевой модели обученной на данных выравнивания эталонных геномов проекта Genome in a Bottle новым методом на этапе идентификации генетических вариантов. Для оценки качества работы нового метода будет использован инструмент hap.py (Haplotype VCF comparison tool, инструмент для сравнения файлов генетических вариантов в формате VCF) На этапе выравнивания для повышения качества выравнивания будет использован набор улучшений индекса референсного генома: добавление в индекс инструмента minimap2 информации о вставках, делециях и однонуклеотидных генетических вариантах, подбор гиперпараметров инструмента minimap2, выравнивание коротких прочтений с использованием модифицированного индекса, последующая конвертация координат выровненных прочтений с помощью инструмента levioSAM2. Для обеспечения качественной работы на данных выровненных новым методом на этапе идентификации генетических вариантов в качестве нейросетевой модели будет использована модель DeepVariant дообученная с использованием обучающей выборки, созданной выравниванием эталонных геномов из проекта Genome in a Bottle вновь разработанным продвинутым методом выравнивания. Научная новизна проекта заключается в том, что его задачи и возможные результаты находятся в авангарде биоинформатических исследований и опираются на передовые тенденции развития ИИ в биоинформатике, алгоритмов выравнивания с применением графовых индексов и использования потенциала больших открытых данных. Актуальность исследований обусловлена текущими ограничениями существующих методов и необходимостью их улучшения с использованием передовых алгоритмов и вычислительных подходов. Результаты выполнения проекта могут быть использованы для повышения качества анализа данных полногеномного секвенирования как в научных проектах, так и в практических задачах персонализированной медицины, фармакогеномики, исследованиях редких заболеваний и клинической генетике. Выполнение задач проекта также позволят начать работы в новом для группы направлении применения искусственного интеллекта в биоинформатике и будут способствовать подготовке новых высококвалифицированных научных кадров |
| Доступ к ОКОГУ исполнителя | False |
| Количество связанных РИД | 0 |
| Количество завершенных ИКРБС | 0 |
| Сумма бюджета | 3000.0 |
| Дата начала | 2025-04-17 |
| Дата окончания | 2026-12-31 |
| Номер контракта | 25-21-20111 |
| Дата контракта | 2025-04-17 |
| Количество отчетов | 2 |
| УДК | 57:51-76 57.02:001.57 |
| Количество просмотров | 20 |
| Руководитель работы | Карпулевич Евгений Андреевич |
| Руководитель организации | Аветисян Арутюн Ишханович |
| Исполнитель | ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ ИНСТИТУТ СИСТЕМНОГО ПРОГРАММИРОВАНИЯ ИМ. В.П. ИВАННИКОВА РОССИЙСКОЙ АКАДЕМИИ НАУК |
| Заказчик | Российский научный фонд |
| Федеральная программа | Отсутствует |
| Госпрограмма | — |
| Основание НИОКТР | Грант |
| Последний статус | 2025-10-02 07:55:19 UTC, 2025-10-02 07:55:19 UTC |
| ОКПД | Услуги, связанные с научными исследованиями и экспериментальными разработками в области компьютерных наук и информационных технологий |
| Отраслевой сегмент | — |
| Минздрав | — |
| Межгосударственная целевая программа | — |
| Ключевые слова | полногеномное секвенирование; нейронные сети; глубокое обучение; биоинформатика; дообучение; выравнивание коротких прочтений; программный конвейер; методы выравнивания |
| Соисполнители | — |
| Типы НИОКТР | Фундаментальное исследование |
| Приоритетные направления | — |
| Критические технологии | — |
| Рубрикатор | 34.03.23 - Математическая биология и теоретическое моделирование биологических процессов. Биоинформатика |
| OECD | — |
| OESR | Компьютерные, информационные науки и биоинформатика (разработка аппаратного обеспечения относится к разделу 2.2, социальный аспект относится к разделу 5.8) |
| Приоритеты научно-технического развития | в) переход к персонализированной, предиктивной и профилактической медицине, высокотехнологичному здравоохранению и технологиям здоровьесбережения, в том числе за счет рационального применения лекарственных препаратов (прежде всего антибактериальных) и использования генетических данных и технологий; |
| Регистрационные номера | — |
