Федеративное обучение позволяет использовать большие данные для обнаружения границ редких видов рака

Nature Communications, том 13, номер статьи: 7346 (2022) Цитировать эту статью

18 тысяч доступов

16 цитат

341 Альтметрика

Подробности о метриках

Авторская поправка к этой статье была опубликована 26 января 2023 г.

Эта статья обновлена

Хотя машинное обучение (МО) показало многообещающие результаты во всех дисциплинах, возможность обобщения за пределами выборки вызывает беспокойство. В настоящее время эта проблема решается путем совместного использования данных с нескольких сайтов, но масштабировать такую централизацию сложно/невозможно из-за различных ограничений. Федеративное машинное обучение (FL) предоставляет альтернативную парадигму точного и обобщаемого машинного обучения, предоставляя только обмен обновлениями числовых моделей. Здесь мы представляем крупнейшее на сегодняшний день исследование FL, включающее данные из 71 центра на 6 континентах, с целью создания автоматического детектора границ опухоли для редкого заболевания глиобластомы, сообщая о самом большом наборе таких данных в литературе (n = 6, 314). Мы демонстрируем улучшение контуров опухоли, подлежащей хирургическому вмешательству, на 33% и на 23% для всей опухоли по сравнению с публично обученной моделью. Мы ожидаем, что наше исследование: 1) позволит проводить больше медицинских исследований, основанных на большом разнообразии данных, обеспечивая значимые результаты для редких заболеваний и недостаточно представленных групп населения, 2) облегчит дальнейший анализ глиобластомы, выпустив нашу консенсусную модель, и 3) продемонстрирует эффективность FL при таких масштаб и сложность задач как сдвиг парадигмы для совместной работы на нескольких площадках, уменьшающий необходимость в обмене данными.

Недавние технологические достижения в здравоохранении в сочетании с изменением культуры пациентов от реактивного к проактивному привели к радикальному росту первичных наблюдений, проводимых системами здравоохранения. Это способствует выгоранию клинических специалистов, поскольку подобные наблюдения требуют тщательной оценки. Чтобы облегчить эту ситуацию, были предприняты многочисленные усилия по разработке, оценке и, в конечном итоге, клиническому переводу методов машинного обучения (МО) для выявления соответствующих взаимосвязей между этими наблюдениями, тем самым снижая нагрузку на клинических экспертов. Достижения в области машинного обучения и особенно глубокого обучения (DL) показали многообещающие результаты в решении этих сложных проблем здравоохранения. Однако существуют опасения по поводу их возможности обобщения на данные из источников, которые не участвовали в обучении модели, т.е. на данные «вне выборки»1,2. В литературе указывается, что для обучения надежных и точных моделей требуются большие объемы данных3,4,5, разнообразие которых влияет на возможность обобщения модели на случаи «вне выборки»6. Чтобы решить эти проблемы, модели необходимо обучать на данных, полученных из многочисленных сайтов, представляющих различные выборки населения. Текущей парадигмой такого сотрудничества на нескольких площадках является «централизованное обучение» (CL), при котором данные с разных площадок передаются в централизованное место в соответствии с соглашениями между площадками6,7,8,9. Однако такую централизацию данных трудно масштабировать (и она может быть даже неосуществимой), особенно в глобальном масштабе, из-за проблем10,11, касающихся конфиденциальности, владения данными, интеллектуальной собственности, технических проблем (например, ограничений сети и хранилища), а также соответствие различным нормативным политикам (например, Закону о переносимости и подотчетности медицинского страхования (HIPAA) США12 и Общему регламенту защиты данных (GDPR) Европейского Союза13). В отличие от этой централизованной парадигмы, «федеративное обучение» (FL) описывает парадигму, в которой модели обучаются только путем обмена обновлениями параметров модели из децентрализованных данных (т. е. каждый сайт сохраняет свои данные локально)10,11,14,15,16, без ущерба для производительности по сравнению с моделями, обученными CL11,15,17,18,19,20,21. Таким образом, FL может предложить альтернативу CL, потенциально создавая сдвиг парадигмы, который устраняет необходимость в совместном использовании данных и, следовательно, увеличивает доступ к географически разным партнерам, тем самым увеличивая размер и разнообразие данных, используемых для обучения моделей ML.

0.067, Wilcoxon signed-rank test) ones between the preliminary and the final consensus model, as quantified in the centralized out-of-sample data for all sub-compartments and their average (Fig. 2)./p> 200 cases. Note the box and whiskers inside each violin plot, represent the true min and max values. The top and bottom of each "box" depict the 3rd and 1st quartile of each measure. The white line and the red ‘×’, within each box, indicate the median and mean values, respectively. The fact that these are not necessarily at the center of each box indicates the skewness of the distribution over different cases. The "whiskers'' drawn above and below each box depict the extremal observations still within 1.5 times the interquartile range, above the 3rd or below the 1st quartile. Equivalent plots for Jaccard similarity coefficient (JSC) can be observed in supplementary figures./p> 200 cases, and familiar with computational analyses), and coordinated independent model training for each, starting from the public initial model and using only their local training data. The findings of this evaluation indicate that the final consensus model performance is always superior or insignificantly different (pAverage = 0.1, pET = 0.5, pTC = 0.2, pWT = 0.06, Wilcoxon signed-rank test) to the ensemble of the local models of these four largest contributing collaborators, for all tumor sub-compartments (Fig. 2). This finding highlights that even large sites can benefit from collaboration./p>200 cases) by starting from the same public initial model and using only their local training data. The ensemble of these four largest site local models did not show significant performance differences to the final consensus model for any tumor sub-compartment, yet the final consensus model showed superior performance indicating that even sites with large datasets can benefit from collaboration. The underlying assumption for these results is that since each of these collaborators initiated their training from the public initial model (which included diverse data from 16 sites), their independent models and their ensemble could have inherited some of the initial model's data diversity, which could justify the observed insignificant differences (Fig. 2 and Supplementary Fig. 3). Though these findings are an indication that the inclusion of more data alone may not lead to better performance, it is worth noting that these four largest sites used for the independent model training represent comprehensive cancer centers (compared to hospitals in community settings) with affiliated sophisticated labs focusing on brain tumor research, and hence were familiar with the intricacies of computational analyses. Further considering the aforementioned ML performance stagnation effect, we note the need for generalizable solutions to quantify the contribution of collaborating sites to the final consensus model performance, such that future FL studies are able to formally assess both the quantity and the quality of the contributed data needed by the collaborating sites and decide on their potential inclusion on use-inspired studies./p>200 training cases, and performed a comparative evaluation of the consensus model with an ensemble of these "single site models". The per voxel sigmoid outputs of the ensemble were computed as the average of such outputs over the individual single-site models. As with all other models in this study, binary predictions were computed by comparing these sigmoid outputs to a threshold value of 0.5. The single-site model ensemble utilized (via the data at the single site) approximately 33% of the total data across the federation./p>