Медицинская карта
Плохой врач лечит болезнь, хороший - причину болезни.
  • гепатит
  • Недели беременности

    Беременность по неделям

  • Сколько живут с диагнозом рак
  • Как рыбий жир может уменьшить воспаление

Новая облачная платформа открывает доступ к геномным данным

2022-02-18 13:31:55

Использование возможностей геномики для поиска факторов риска основных заболеваний или поиска родственников зависит от дорогостоящей и трудоемкой способности анализировать огромное количество геномов. Команда под руководством ученого-компьютерщика из Университета Джона Хопкинса уравняла правила игры, создав облачную платформу, которая предоставляет исследователям в области геномики легкий доступ к одной из крупнейших в мире баз данных по геномике.


Новая платформа, известная как AnVIL (Genomic Data Science Analysis, Visualization and Informatics Lab-space), предоставляет любому исследователю, имеющему подключение к Интернету, доступ к тысячам инструментов анализа, записям пациентов и более чем 300 000 геномов. Работа, проект Национального института генома человека (NHGRI), опубликована сегодня в журнале Cell Genomics .


«AnVIL переворачивает модель обмена геномными данными , предлагая беспрецедентные новые возможности для науки, объединяя исследователей и наборы данных по-новому и обещая сделать новые захватывающие открытия», — сказал соруководитель проекта Майкл Шац, заслуженный профессор компьютерных наук и биологии Bloomberg. в Джонс Хопкинс.


Обычно геномный анализ начинается с того, что исследователи загружают огромные объемы данных из централизованных хранилищ в свои собственные центры обработки данных. Этот процесс не только требует много времени, неэффективен и дорог, но и затрудняет сотрудничество с исследователями из других учреждений.


«AnVIL будет преобразовывать учреждения любого размера, особенно небольшие учреждения, у которых нет ресурсов для создания собственных центров обработки данных. Мы надеемся, что AnVIL уравняет правила игры, чтобы у всех был равный доступ к открытиям». — сказал Шац.


Генетические факторы риска таких заболеваний, как рак или сердечно-сосудистые заболевания, часто очень незаметны, поэтому исследователям приходится анализировать геномы тысяч пациентов, чтобы обнаружить новые ассоциации. Необработанные данные для одного человеческого генома составляют около 40 ГБ, поэтому загрузка тысяч геномов может занять от нескольких дней до нескольких недель: для одного генома требуется около 10 DVD-дисков с данными, поэтому передача тысяч означает перемещение «десятков тысяч DVD-дисков». данных», — сказал Шац.


Кроме того, многие исследования требуют интеграции данных, собранных в нескольких учреждениях, а это означает, что каждое учреждение должно загружать свою собственную копию, обеспечивая при этом безопасность данных пациентов. Ожидается, что эта проблема станет еще более серьезной в будущем, поскольку исследователи приступают к все более масштабным исследованиям, требующим одновременного анализа от сотен тысяч до миллионов геномов.


«Удаленное подключение к AnVIL устраняет необходимость в этих массовых загрузках и экономит накладные расходы», — говорит Шац. «Вместо того, чтобы мучительно перемещать данные исследователям, мы позволяем исследователям легко перемещаться к данным в облаке. Это также значительно упрощает обмен наборами данных, так что данные можно связывать новыми способами для поиска новых связей, и это упрощает многие вычисления. вопросы, такие как обеспечение надежного шифрования и конфиденциальности для наборов данных пациентов».


AnVIL также предоставляет исследователям несколько основных инструментов анализа , в том числе Galaxy, частично разработанный в Университете Джона Хопкинса, наряду с другими популярными инструментами, такими как R/Bioconductor, ноутбуки Jupyter, WDL, Gen3 и Dockstore для поддержки как интерактивного анализа, так и крупномасштабного пакетного анализа. вычисления. В совокупности эти инструменты позволяют исследователям проводить даже самые масштабные исследования без необходимости создавать собственные вычислительные среды.


В настоящее время исследователи со всего мира используют платформу для изучения различных генетических заболеваний, включая расстройства аутистического спектра, сердечно-сосудистые заболевания и эпилепсию. Команда Шаца, входящая в состав консорциума «Теломера-в-теломер», использовала его для повторного анализа тысяч человеческих геномов с помощью нового эталонного генома, чтобы обнаружить более 1 миллиона новых вариантов.

Оставьте комментарии и отзывы!

Используйте нормальные имена. Ваш комментарий будет опубликован после проверки.

(обязательно)