В журнале «Национальное здравоохранение» (Scopus, Q2) опубликована наша статья «Использование методов машинного обучения для диагностики заболеваний на основе неструктурированных медицинских текстов»
В этой работе мы подробно описали процесс создания искусственной нейронной сети для предварительной постановки диагнозов на основе анализа жалоб и объективных данных о здоровье пациента.
Результатом разработки стала модель глубокого обучения, поддерживающая выявлений подозрений 156 наиболее распространенных диагностических категорий, суммарно включающих 6 тыс. различных кодировок заболеваний по МКБ-10.
Ценность исследования состоит в том, что мы изучили различные подходы к решению задачи мульти-меточной классификации заболеваний, включая методы лемматизации и векторизации на базе предобученной модели эмбеддингов. Для нас было важно не только создать высокоточную модель, но и решить проблему «черного ящика»: сделать так, чтобы модель могла объяснить результаты своего ответа.
Наилучшие результаты показало использование нейронной сети с несколькими скрытыми слоями, включая встроенный модуль Attention Pooling. Ее показатели качества диагностики составили: AUROC - 0,917, точность - 0,852, чувствительность - 0,856, специфичность - 0,852.
Созданная модель прошла проверку на внешних валидационных данных, где продемонстрировала нужную стабильность и клиническую интерпретируемость результатов. В этой связи командой разработчиков было принято положительное решение о возможности ии применения в реальной медицинской практике. Модель легла в основу нашего сервиса «Симптомчекер».