"Лечить или не лечить?" — вопрос, с которым постоянно сталкиваются медики. Чтобы помочь в принятии решений, некоторые обращаются к моделям прогнозирования риска заболеваний. Эти модели прогнозируют, у каких пациентов с большей или меньшей вероятностью разовьется заболевание и, следовательно, может быть полезно лечение, на основе демографических факторов и медицинских данных.
С распространением этих инструментов в области медицины и особенно в этой области клинического руководства исследователи из Стэнфорда и других стран пытаются понять, как обеспечить справедливость алгоритмов, лежащих в основе моделей. Смещение стало серьезной проблемой, когда модели не разрабатываются с использованием данных, отражающих различные группы населения.
В новом исследовании исследователи из Стэнфорда изучили важные клинические рекомендации по сердечно-сосудистым заболеваниям, в которых рекомендуется использовать калькулятор риска для принятия решений о назначении лекарств чернокожим женщинам, белым женщинам, чернокожим мужчинам и белым мужчинам. Исследователи рассмотрели два способа, которые были предложены для повышения справедливости алгоритмов калькулятора. Один подход, известный как повторная калибровка группы, повторно настраивает модель риска для каждой подгруппы пациентов, чтобы лучше соответствовать частоте наблюдаемых исходов. Второй подход, называемый уравниванием шансов, направлен на то, чтобы коэффициенты ошибок были одинаковыми для всех групп. Исследователи обнаружили, что подход к повторной калибровке в целом лучше соответствует рекомендациям руководств.
Полученные данные подчеркивают важность создания алгоритмов, учитывающих весь контекст, относящийся к обслуживаемым ими группам населения.
«Хотя машинное обучение имеет большие перспективы в медицинских учреждениях и других социальных контекстах, эти технологии могут усугубить существующее неравенство в отношении здоровья», — говорит Агата Форисиарц, доктор философии из Стэнфорда. студент компьютерных наук и ведущий автор исследования, опубликованного в BMJ Health & Care Informatics . «Наши результаты показывают, что оценка моделей прогнозирования риска заболеваний на предмет справедливости может сделать их использование более ответственным».
Помимо Foryciarz, в число исследователей входят старший автор Нигам Шах, главный научный сотрудник Stanford Health Care и преподаватель Stanford HAI; Исследователь Google Стивен Пфол и клинический специалист Google Health Бирью Патель.
Разумная профилактика
Клинические рекомендации, оцененные в исследовании, предназначены для первичной профилактики атеросклеротических сердечно-сосудистых заболеваний. Это состояние вызвано накоплением жиров, холестерина и других веществ в виде так называемых бляшек на стенках артерий. Липкие бляшки блокируют кровоток и потенциально могут привести к неблагоприятным последствиям, включая инсульты и почечную недостаточность.
Руководство, выпущенное Американским колледжем кардиологов и Американской кардиологической ассоциацией, содержит рекомендации о том, когда пациентам следует начинать прием лекарств, называемых статинами, — препаратов, снижающих уровень определенного холестерина, который приводит к накоплению артериального давления.
Рекомендации по атеросклеротическим сердечно-сосудистым заболеваниям учитывают медицинские показатели, включая артериальное давление, уровень холестерина, диагноз диабета, статус курения и лечение гипертонии, а также демографические данные по полу, возрасту и расе. Основываясь на этих данных, руководство предлагает использовать калькулятор, который затем оценивает общий риск развития сердечно-сосудистых заболеваний у пациентов в течение 10 лет. Пациентам с промежуточным или высоким риском заболевания рекомендуется начать лечение статинами. Для пациентов с пограничным или низким риском заболевания терапия статинами может быть ненужной или нежелательной, учитывая потенциальные побочные эффекты лекарств.
«Если вас как пациента считают более рискованным, чем вы есть на самом деле, вам могут назначить статины, которые вам не нужны», — говорит Форисьярц. «Тогда, с другой стороны, если у вас прогнозируется низкий риск, но вы действительно должны принимать статины, врачи могут не принять профилактические меры, которые могли бы предотвратить сердечные заболевания в дальнейшем».
В руководствах по клинической практике врачам все чаще рекомендуют использовать модели прогнозирования клинического риска для различных состояний и групп пациентов. Распространение калькуляторов для поддержки принятия медицинских решений — например, на телефонах и другой электронике, используемой в клинических условиях, — означает, что такие приложения часто находятся под рукой.
«Врачи, вероятно, будут сталкиваться и использовать все больше и больше этих инструментов поддержки принятия решений на основе алгоритмов, поэтому важно, чтобы разработчики старались обеспечить максимально справедливую и точную работу этих инструментов», — говорит Форисьярц.
Уточнение оценки рисков
Для своего исследования Foryciarz и его коллеги использовали когорту из более чем 25 000 пациентов в возрасте 40–79 лет, собранную из нескольких больших наборов данных. Исследователи сравнили фактическую заболеваемость пациентов атеросклерозом с прогнозами, сделанными моделями риска. В рамках этих экспериментов исследователи построили модели, используя два подхода групповой повторной калибровки и уравнивания шансов, а затем сравнили оценки, полученные калькуляторами модели, с оценками, полученными простым калькулятором модели без корректировки справедливости.
Повторная калибровка отдельно для каждой из четырех подгрупп включала запуск модели для подмножества каждой подгруппы и получение оценки риска фактического процента пациентов, у которых развилось заболевание, а затем корректировку базовой модели для более широкой подгруппы. Этот подход действительно успешно повысил желаемую совместимость модели с рекомендациями для пациентов с низким уровнем риска. С другой стороны, различия в частоте ошибок между подгруппами в целом действительно проявлялись, особенно в группе высокого риска.
Подход с уравновешенными шансами, напротив, требовал создания новой прогностической модели, которая была ограничена, чтобы давать уравновешенные коэффициенты ошибок в популяциях. На практике этот подход обеспечивает одинаковые показатели ложноположительных и ложноотрицательных результатов в разных популяциях. Ложноположительный результат относится к пациенту с высоким риском и началу приема статинов, но у которого не развилось атеросклеротическое сердечно-сосудистое заболевание, в то время как ложноотрицательный результат относится к пациенту с низким риском, но у которого действительно развился атеросклеротический сердечно-сосудистый синдром. и, вероятно, выиграл бы от приема статинов.
Использование этого подхода с уравниванием шансов в конечном итоге исказило пороговые уровни принятия решений для различных подгрупп. По сравнению с подходом групповой повторной калибровки, использование калькулятора, созданного с учетом уравнивания шансов, привело бы к большему количеству недо- и чрезмерных назначений статинов и потенциально не смогло бы предотвратить некоторые неблагоприятные исходы.
Повышение точности при групповой повторной калибровке требует дополнительного времени и усилий для корректировки исходной модели по сравнению с оставлением модели как есть, хотя это небольшая цена за улучшение клинических результатов. Дополнительным предостережением является то, что разделение населения на подгруппы увеличивает вероятность создания слишком маленького размера выборки для эффективной оценки рисков внутри подгруппы, а также снижает возможность распространения прогнозов модели на другие подгруппы.
В целом, разработчики алгоритмов и клиницисты должны помнить, какие показатели справедливости использовать для оценки и какие, если таковые имеются, использовать для корректировки модели. Они также должны понимать, как модель или калькулятор будет использоваться на практике и как ошибочные прогнозы могут привести к клиническим решениям, которые в дальнейшем могут привести к неблагоприятным последствиям для здоровья. Форисьярз отмечает, что осознание потенциальной предвзятости и дальнейшее развитие подходов к алгоритмам справедливости могут улучшить результаты для всех.
«Хотя не всегда легко определить, на какой из множества возможных подгрупп следует сосредоточиться, лучше учитывать некоторые подгруппы, чем не учитывать ни одну из них», — говорит Форисьярц. «Разработка алгоритмов для обслуживания разнообразного населения означает, что сами алгоритмы должны разрабатываться с учетом этого разнообразия».