В статье, опубликованной в журнале Patterns , ученые из Медицинской школы Икана на горе Синай описали создание нового автоматизированного алгоритма на основе искусственного интеллекта, который может научиться считывать данные пациентов из электронных медицинских карт. В параллельном сравнении они показали, что их метод, названный Phe2vec (FEE-to-vek), точно выявляет пациентов с определенными заболеваниями, а также традиционный метод «золотого стандарта», который требует гораздо больше ручного труда. развиваться и выступать.
«По-прежнему наблюдается взрывной рост количества и типов данных, хранящихся в электронном виде в медицинской карте пациента. Распутывание этой сложной паутины данных может быть очень обременительным, замедляя тем самым прогресс в клинических исследованиях» , - сказал Бенджамин С. Гликсберг, доктор философии. ., Доцент кафедры генетики и геномных наук, член Института цифрового здравоохранения Хассо Платтнера на горе Синай (HPIMS) и старший автор исследования. «В этом исследовании мы создали новый метод извлечения данных из электронных медицинских карт с помощью машинного обучения, который является более быстрым и менее трудоемким, чем отраслевой стандарт. Мы надеемся, что это будет ценный инструмент, который будет способствовать дальнейшему и менее предвзятому, исследования в области клинической информатики ».
Исследование провела Джессика К. Де Фрейтас, аспирантка лаборатории доктора Гликксберга.
В настоящее время ученые полагаются на набор установленных компьютерных программ.или алгоритмы для поиска новой информации в медицинских записях. Разработкой и хранением этих алгоритмов управляет система, называемая базой знаний по фенотипам (PheKB). Хотя система очень эффективна при правильной идентификации диагноза пациента, процесс разработки алгоритма может быть очень трудоемким и негибким. Чтобы изучить болезнь, исследователи сначала должны просмотреть пачки медицинских записей в поисках фрагментов данных, таких как определенные лабораторные тесты или рецепты, которые однозначно связаны с заболеванием. Затем они программируют алгоритм, который направляет компьютер на поиск пациентов, у которых есть данные, относящиеся к конкретному заболеванию, которые составляют «фенотип». В свою очередь, список пациентов, идентифицированных компьютером, должен быть перепроверен исследователями вручную.
В этом исследовании исследователи испробовали другой подход - тот, в котором компьютер учится самостоятельно определять фенотипы болезней и, таким образом, экономить время и силы исследователей. Этот новый метод Phe2vec был основан на исследованиях, которые команда уже провела.
«Ранее мы показали, что машинное обучение без учителя может быть высокоэффективной и действенной стратегией для сбора электронных медицинских карт», - сказал Риккардо Миотто, доктор философии, бывший доцент HPIMS и старший автор исследования. «Потенциальное преимущество нашего подхода состоит в том, что он изучает представления о заболеваниях из самих данных. Следовательно, машина выполняет большую часть работы, которую обычно выполняют эксперты, чтобы определить комбинацию элементов данных из медицинских записей, которая лучше всего описывает конкретное заболевание».
По сути, компьютер был запрограммирован так, чтобы просматривать миллионы электронных медицинских карт и учиться находить связи между данными и заболеваниями. Это программирование основывалось на алгоритмах «встраивания», которые ранее были разработаны другими исследователями, такими как лингвисты, для изучения сетей слов на различных языках. Один из алгоритмов, названный word2vec, оказался особенно эффективным. Затем компьютер был запрограммирован так, чтобы использовать полученные знания для идентификации диагнозов почти 2 миллионов пациентов, данные которых хранились в системе здравоохранения Mount Sinai.
Наконец, исследователи сравнили эффективность новой и старой систем. Они обнаружили, что для девяти из десяти протестированных заболеваний новая система Phe2vec была так же эффективна или немного лучше, чем процесс фенотипирования по золотому стандарту, при правильной идентификации диагнозов из электронных медицинских карт . Несколько примеров заболеваний включали деменцию, рассеянный склероз и серповидно-клеточную анемию .
«В целом наши результаты обнадеживают и позволяют предположить, что Phe2vec является многообещающим методом крупномасштабного фенотипирования заболеваний в данных электронных медицинских карт», - сказал д-р Гликсберг. «Мы надеемся, что после дальнейшего тестирования и доработки его можно будет использовать для автоматизации многих начальных этапов исследований в области клинической информатики, что позволит ученым сосредоточить свои усилия на последующем анализе, таком как прогнозное моделирование».