Ученые из университетов Манчестера и Оксфорда разработали систему искусственного интеллекта, которая может выявлять и отслеживать новые варианты COVID-19, а также может помочь в борьбе с другими инфекциями в будущем.
Платформа сочетает в себе методы уменьшения размерности и новый объяснимый алгоритм кластеризации под названием CLASSIX, разработанный математиками из Манчестерского университета. Это позволяет быстро идентифицировать группы вирусных геномов, которые могут представлять риск в будущем, на основе огромных объемов данных.
Исследование, представленное в журнале PNAS , может поддержать традиционные методы отслеживания вирусной эволюции, такие как филогенетический анализ , которые в настоящее время требуют обширного ручного управления.
Роберто Кауанци, исследователь из Манчестерского университета и первый и соответствующий автор статьи, сказал: «С момента появления COVID-19 мы наблюдаем множество волн новых вариантов, повышенную заразность, уклонение от иммунных реакций и повышенную тяжесть заболевания. болезни.
«Ученые сейчас активизируют усилия по выявлению этих тревожных новых вариантов, таких как альфа, дельта и омикрон, на самых ранних стадиях их появления. Если мы сможем найти способ сделать это быстро и эффективно, это позволит нам действовать более активно». в наших ответных мерах, таких как разработка индивидуальной вакцины, и может даже позволить нам устранить варианты до того, как они станут устойчивыми».
Как и многие другие РНК-вирусы, COVID-19 имеет высокую частоту мутаций и короткий промежуток времени между поколениями, что означает, что он развивается чрезвычайно быстро. Это означает, что выявление новых штаммов, которые могут оказаться проблематичными в будущем, требует значительных усилий.
В настоящее время в базе данных GISAID (Глобальная инициатива по обмену всеми данными о гриппе) доступно почти 16 миллионов последовательностей, что обеспечивает доступ к геномным данным вирусов гриппа.
Диаграмма, показывающая этапы предлагаемого метода для выявления новых вариантов COVID-19. Фото: Манчестерский университет.
Картирование эволюции и истории всех геномов COVID-19 на основе этих данных в настоящее время выполняется с использованием чрезвычайно большого количества компьютерного и человеческого времени.
Описанный метод позволяет автоматизировать подобные задачи. Исследователи обработали 5,7 миллиона последовательностей с высоким уровнем покрытия всего за один-два дня на стандартном современном ноутбуке; это было бы невозможно для существующих методов, в результате чего выявление штаммов патогенов было бы в руках большего числа исследователей из-за сокращения потребностей в ресурсах.
Томас Хаус, профессор математических наук в Манчестерском университете, сказал: «Беспрецедентное количество генетических данных, полученных во время пандемии, требует усовершенствования наших методов для их тщательного анализа. эти данные, существует риск, что они будут удалены или удалены.
«Мы знаем, что время специалистов ограничено, поэтому наш подход не должен полностью заменять работу людей, а работать вместе с ними, чтобы позволить выполнить работу намного быстрее и освободить наших экспертов для других жизненно важных разработок».
Предлагаемый метод работает путем разбиения генетических последовательностей вируса COVID-19 на более мелкие «слова» (называемые 3-мерами), представленные в виде чисел, путем их подсчета. Затем он группирует похожие последовательности вместе на основе их словесных шаблонов, используя методы машинного обучения.
Стефан Гюттель, профессор прикладной математики в Манчестерском университете, сказал: «Разработанный нами алгоритм кластеризации CLASSIX гораздо менее требовательн в вычислительном отношении, чем традиционные методы, и полностью объясним, то есть обеспечивает текстовые и визуальные объяснения вычисляемых кластеров».
Роберто Кауанци добавил: «Наш анализ служит доказательством концепции, демонстрируя потенциальное использование методов машинного обучения в качестве инструмента оповещения для раннего обнаружения появляющихся основных вариантов, не полагаясь на необходимость создания филогений.
«Хотя филогенетика остается «золотым стандартом» для понимания происхождения вируса, эти методы машинного обучения могут обрабатывать на несколько порядков больше последовательностей, чем текущие филогенетические методы, и при этом с низкими вычислительными затратами».