Компания «К-Скай», разработчик платформы Webiomed, совместно с Институтом цифровой трансформации медицины (ИЦТМ) РНИМУ им. Н.И. Пирогова разработали валидационный набор данных для проверки качества работы систем искусственного интеллекта, предназначенных для предварительной постановки диагноза.
Разработка систем, способных анализировать симптомы и формировать список возможных заболеваний пациента, является одной из самых распространенных задач для технологий искусственного интеллекта (ИИ). В России было создано множество прикладных продуктов для этой задачи, в том числе имеется зарегистрированное медицинское изделие с технологиями ИИ, выдающее топ-3 диагноза на основании оценки жалоб пациента. Однако до настоящего времени не было ни одного открытого независимого бенчмарка, который позволил бы надежно оценить и сравнить точность различных симптомчекеров между собой.
Разработчики платформы Webiomed совместно с экспертами нашего давнего партнера, Института цифровой трансформации медицины, приняли решение о создании и публикации датасета с образцами жалоб и объективных данных о пациентах и сопоставленных им правильных диагнозов в кодировке МКБ-10. При его разработке была использована методология семантической адаптации медицинских текстов, позволяющая создавать производные обезличенные наборы данных для различных исследовательских задач без потери клинической достоверности.
В наборе представлено 219 записей, распределяющихся по 93 группам наиболее распространенных заболеваний. 117 из которых подготовили исследователи из университета Пирогова совместно с СибГМУ, 102 примера были созданы на основе записей из базы Webiomed путем обработки оригинальных записей с целью анонимизации и сохранения семантической ценности.
Данный набор является только началом работы над датасетом, предполагающим его постоянное развитие.
Набор включает следующие категории информации: пол, возраст, жалобы пациентов, результаты объективных осмотров, группа заболеваний. Каждая запись набора была совместно провалидирована медицинскими экспертами на соответствие диагнозу, логике и полноте.
Ключевым преимуществом созданного валидационного набора является строгая клиническая согласованность включенных в него записей и учет особенностей описания жалоб и объективных данных в реальной клинической практике.
Любой разработчик может проверить своё решение на созданном наборе, для этого можно использовать метрики качества ранжирования (https://habr.com/ru/companies/econtenta/articles/303458/) или оценивать классические метрики по каждому классу заболеваний. Подробнее о метриках и как их интерпретировать, рассказывали в нашем материале (https://webiomed.ru/blog/metriki-kachestva-raboty-modelei/).
Александр Гусев директор по развитию Webiomed:
«В настоящее время доверие к публикуемым разработчиками метрикам точности работы их ИИ-решений является одной из серьезных отраслевых проблем. Как правило, мы видим бездоказательные заявления о высоких метриках точности работы каких-либо ИИ-решений, но проверить эти заявления фактически невозможно. Представляется, что разработка и публикация открытых валидационных наборов данных является важным шагом в деле независимой клинической оценки предлагаемых для здравоохранения продуктов и надеемся, что коллеги по отрасли поддержат эту инициативу».
Татьяна Зарубина, директор ИЦТМ:
«Несмотря на то, что в медицине уже формируются большие объемы данных реальной клинической практики, ресурса доступа к обезличенным данным, экспертно размеченным по отношению к диагнозу/ диагностическому заключению, для валидации разрабатываемых решений в области ИИ до сих пор нет. Зарубежные датасеты имеют свою специфику, прежде всего, связанную с особенностями медицинской терминологии, включением в них исключительно стационарных случаев оказания медицинской помощи. Создание прецедентов открытых отечественных датасетов, содержащих валидированные случаи позволят вовлечь в эту работу многие коллективы и будут способствовать появлению более качественных систем поддержки принятия врачебных решений».