Федеративное обучение позволяет использовать большие данные для обнаружения границ редких видов рака
Nature Communications, том 13, номер статьи: 7346 (2022) Цитировать эту статью
18 тысяч доступов
16 цитат
341 Альтметрика
Подробности о метриках
Авторская поправка к этой статье была опубликована 26 января 2023 г.
Эта статья обновлена
Хотя машинное обучение (МО) показало многообещающие результаты во всех дисциплинах, возможность обобщения за пределами выборки вызывает беспокойство. В настоящее время эта проблема решается путем совместного использования данных с нескольких сайтов, но масштабировать такую централизацию сложно/невозможно из-за различных ограничений. Федеративное машинное обучение (FL) предоставляет альтернативную парадигму точного и обобщаемого машинного обучения, предоставляя только обмен обновлениями числовых моделей. Здесь мы представляем крупнейшее на сегодняшний день исследование FL, включающее данные из 71 центра на 6 континентах, с целью создания автоматического детектора границ опухоли для редкого заболевания глиобластомы, сообщая о самом большом наборе таких данных в литературе (n = 6, 314). Мы демонстрируем улучшение контуров опухоли, подлежащей хирургическому вмешательству, на 33% и на 23% для всей опухоли по сравнению с публично обученной моделью. Мы ожидаем, что наше исследование: 1) позволит проводить больше медицинских исследований, основанных на большом разнообразии данных, обеспечивая значимые результаты для редких заболеваний и недостаточно представленных групп населения, 2) облегчит дальнейший анализ глиобластомы, выпустив нашу консенсусную модель, и 3) продемонстрирует эффективность FL при таких масштаб и сложность задач как сдвиг парадигмы для совместной работы на нескольких площадках, уменьшающий необходимость в обмене данными.
Недавние технологические достижения в здравоохранении в сочетании с изменением культуры пациентов от реактивного к проактивному привели к радикальному росту первичных наблюдений, проводимых системами здравоохранения. Это способствует выгоранию клинических специалистов, поскольку подобные наблюдения требуют тщательной оценки. Чтобы облегчить эту ситуацию, были предприняты многочисленные усилия по разработке, оценке и, в конечном итоге, клиническому переводу методов машинного обучения (МО) для выявления соответствующих взаимосвязей между этими наблюдениями, тем самым снижая нагрузку на клинических экспертов. Достижения в области машинного обучения и особенно глубокого обучения (DL) показали многообещающие результаты в решении этих сложных проблем здравоохранения. Однако существуют опасения по поводу их возможности обобщения на данные из источников, которые не участвовали в обучении модели, т.е. на данные «вне выборки»1,2. В литературе указывается, что для обучения надежных и точных моделей требуются большие объемы данных3,4,5, разнообразие которых влияет на возможность обобщения модели на случаи «вне выборки»6. Чтобы решить эти проблемы, модели необходимо обучать на данных, полученных из многочисленных сайтов, представляющих различные выборки населения. Текущей парадигмой такого сотрудничества на нескольких площадках является «централизованное обучение» (CL), при котором данные с разных площадок передаются в централизованное место в соответствии с соглашениями между площадками6,7,8,9. Однако такую централизацию данных трудно масштабировать (и она может быть даже неосуществимой), особенно в глобальном масштабе, из-за проблем10,11, касающихся конфиденциальности, владения данными, интеллектуальной собственности, технических проблем (например, ограничений сети и хранилища), а также соответствие различным нормативным политикам (например, Закону о переносимости и подотчетности медицинского страхования (HIPAA) США12 и Общему регламенту защиты данных (GDPR) Европейского Союза13). В отличие от этой централизованной парадигмы, «федеративное обучение» (FL) описывает парадигму, в которой модели обучаются только путем обмена обновлениями параметров модели из децентрализованных данных (т. е. каждый сайт сохраняет свои данные локально)10,11,14,15,16, без ущерба для производительности по сравнению с моделями, обученными CL11,15,17,18,19,20,21. Таким образом, FL может предложить альтернативу CL, потенциально создавая сдвиг парадигмы, который устраняет необходимость в совместном использовании данных и, следовательно, увеличивает доступ к географически разным партнерам, тем самым увеличивая размер и разнообразие данных, используемых для обучения моделей ML.