www.nature.com/articles/d41586-026-00697-4
Десятки моделей искусственного интеллекта для прогнозирования заболеваний были обучены на сомнительных данных.
Исследователи сообщают в препринте 1 на medRxiv, что для обучения моделей искусственного интеллекта, предназначенных для прогнозирования риска инсульта и диабета у людей, используются сомнительные наборы данных. Некоторые из этих моделей, по-видимому, применялись в клинической практике, хотя неясно, привело ли это к ошибочным диагнозам. По меньшей мере два журнала изучают исследования, в которых использовались эти наборы данных.
Адриан Барнетт, статистик из Квинслендского технологического университета в Брисбене, Австралия, и его коллеги выявили 124 рецензируемых статьи, в которых сообщается об использовании одного из двух общедоступных наборов медицинских данных для обучения моделей машинного обучения, которые предоставляют мало информации об источнике этих данных.
Анализ выявил множество странностей, которые не ожидались бы от данных, полученных от реальных людей, что заставило Барнетта и его коллег заподозрить, что данные могли быть сфабрикованы. «Это стало огромным сюрпризом — обнаружить нечто подобное», — говорит Барнетт.