Юрий Александрович Васильев "Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие, стр. 2"

Читать Юрий Александрович Васильев "Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие
Отзывы на книгу Юрий Александрович Васильев "Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие

– готовность решать стандартные задачи профессиональной деятельности с использованием информационных, библиографических ресурсов, медико-биологической терминологии, информационно-коммуникационных технологий и учетом основных требований информационной безопасности (ОПК-1);

– способность и готовность анализировать результаты собственной деятельности для предотвращения профессиональных ошибок (ОПК-5).

3. Профессиональных:

– способность к применению основных принципов организации и управления в сфере охраны здоровья граждан, в медицинских организациях и их структурных подразделениях (ПК-17);

– готовность к участию во внедрении новых методов и методик, направленных на охрану здоровья граждан (ПК-22).

4. Дополнительно:

– способность организовывать оказание разных видов медицинской помощи с применением допущенных к обращению медицинских изделий на основе технологий искусственного интеллекта;

– способность понимать принципы работы современных информационных технологий, технологий искусственного интеллекта и использовать их для решения задач профессиональной деятельности.

II. По специальности 09.04.02 Информационные системы и технологии:

1. Общекультурных:

– способность совершенствовать и развивать свой интеллектуальный и общекультурный уровень (ОК-1);

– способность к самостоятельному обучению новым методам исследования, к изменению научного и научно-производственного профиля своей профессиональной деятельности (ОК-2);

– использование на практике умений и навыков в организации исследовательских и проектных работ, в управлении коллективом (ОК-4);

– способность к профессиональной эксплуатации современного оборудования и приборов (ОК-7).

2. Общепрофессиональных и профессиональных:

– способность воспринимать математические, естественно-научные, социально-экономические и профессиональные знания, умение самостоятельно приобретать, развивать и применять их для решения нестандартных задач, в том числе в новой или незнакомой среде и в междисциплинарном контексте (ОПК-1);

– владение методами и средствами получения, хранения, переработки и трансляции информации посредством современных компьютерных технологий, в том числе в глобальных компьютерных сетях (ОПК-5);

– умение разрабатывать стратегии проектирования, определять цели проектирования, критерии эффективности, ограничения применимости (ПК-1);

– умение проводить разработку и исследование теоретических и экспериментальных моделей объектов профессиональной деятельности в области медицины (ПК-8).

III. По специальности 09.03.04 Программная инженерия:

1. Универсальных:

– способность осуществлять поиск, критический анализ и синтез информации, применять системный подход для решения поставленных задач (УК-1).

2. Общепрофессиональных:

– способность применять естественно-научные и общеинженерные знания, методы математического анализа и моделирования, теоретического и экспериментального исследования в профессиональной деятельности (ОПК-1);

– способность использовать современные информационные технологии и программные средства, в том числе отечественного производства, при решении задач профессиональной деятельности (ОПК-2);

– способность осуществлять поиск, хранение, обработку и анализ информации из различных источников и баз данных, представлять ее в требуемом формате с использованием информационных, компьютерных и сетевых технологий (ОПК-8).

IV. По специальности 06.004 Специалист по тестированию в области информационных технологий:

1. Общекультурных:

– способность совершенствовать и развивать свой интеллектуальный и общекультурный уровень (ОК-1);

– способность к самостоятельному обучению новым методам исследований, к изменению научного и научно-производственного профиля своей профессиональной деятельности (ОК-2);

– использование на практике умений и навыков в организации исследовательских и проектных работ, управление коллективом (ОК-4);

– способность к профессиональной эксплуатации современного оборудования и приборов (ОК-7);

2. Общепрофессиональных и профессиональных:

V. По специальности 30.05.03 Медицинская кибернетика и 30.05.02 Медицинская биофизика:

1. Общекультурных:

– способность совершенствовать и развивать свой интеллектуальный и общекультурный уровень (ОК-1);

– способность к профессиональной эксплуатации современного оборудования и приборов (ОК-7).

2. Общепрофессиональных и профессиональных:

В результате изучения материала обучаемый должен

знать:

– основную терминологию, базовые принципы юридического регулирования, цели и задачи создания и эксплуатации наборов данных в здравоохранении;

– принципы стандартизации процессов создания и эксплуатации наборов данных в здравоохранении;

– принципы классификации, основные требования к структуре, составу, описанию наборов данных;

– подходы к постановке клинической задачи, решаемой с применением конкретного набора данных;

уметь:

– организовывать процесс подготовки набора данных для сферы здравоохранения;

– организовывать процессы контроля и непрерывного повышения качества при подготовке наборов данных;

– обеспечивать защиту персональных данных;

владеть:

– навыками создания технического задания на набор данных;

– отдельными навыками разметки разных типов биомедицинских данных;

– навыками создания описания набора данных для здравоохранения.

Изучение материала пособия рассчитано на 6 академических часов самостоятельной работы, для его успешного освоения рекомендуется использовать открытые библиотеки наборов данных в сфере здравоохранения: https://mosmed.ai/datasets/; https://ai2.rt-eu.ru/. В целях проверки усвоения информации предусмотрены вопросы для самоконтроля. Для повышения уровня эрудированности и вовлеченности обучаемых в изучение учебного курса опционально рекомендуется подготовка рефератов и докладов-презентаций.

Коллектив авторов выражает благодарность за помощь в подготовке учебного пособия В. П. Новику, Е. Ф. Савкиной, Д. В. Козлову, У. А. Сахащик, Ю. С. Бусыгиной, Е. Г. Бахтеевой.

ОБЩИЕ ПОЛОЖЕНИЯ

В последнее время стали популярными такие слова, как искусственный интеллект, машинное обучение, большие данные (big data). Эти термины входят в повседневное употребление и уже встречаются не только в узконаправленных специализированных областях. Не стала исключением и сфера здравоохранения: автоматизированные системы диагностики, системы распознавания медицинских записей и естественного языка, системы анализа и предсказания событий, автоматической классификации и сверки информации, чат-боты поддержки пациентов, электронная медицинская карта и многое другое – результаты масштабной цифровизации в данной сфере[4 - Гусев А. В. Перспективы нейронных сетей и глубокого машинного обучения в создании решений для здравоохранения // Врач и информационные технологии. 2017. №3. С. 92—105 URL: https://www.idmz.ru/jurnali/vrach-i-informatsionnye-tekhnologii/2017/3/perspektivy-neironnykh-setei-i-glubokogo-mashinnogo-obucheniia-v-sozdanii-reshenii-dlia-zdravookhraneniia (https://www.idmz.ru/jurnali/vrach-i-informatsionnye-tekhnologii/2017/3/perspektivy-neironnykh-setei-i-glubokogo-mashinnogo-obucheniia-v-sozdanii-reshenii-dlia-zdravookhraneniia).],[5 - Гусев А. В., Добриднюк С. Л. Искусственный интеллект в медицине и здравоохранении // Информационное общество. 2017. №4—5. С. 78—93.]. Столь мощный прогресс цифровых технологий в Российской Федерации поддерживается Национальной стратегией развития искусственного интеллекта на период до 2030 года [1].

Искусственный интеллект (ИИ) – комплекс технологических решений, позволяющий имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных задач результаты, сопоставимые, как минимум, с результатами интеллектуальной деятельности человека. Комплекс технологических решений включает в себя информационно-коммуникационную инфраструктуру, программное обеспечение (в том числе в котором используются методы машинного обучения), процессы и сервисы по обработке данных и поиску решений [1].

Технологии искусственного интеллекта (ТИИ) – технологии, основанные на использовании искусственного интеллекта, включая компьютерное зрение, обработку естественного языка, распознавание и синтез речи, интеллектуальную поддержку принятия решений и перспективные методы искусственного интеллекта [1].

В соответствии с Национальной стратегией использование технологий искусственного интеллекта в социальной сфере способствует созданию условий для улучшения уровня жизни населения, в том числе за счет повышения качества услуг в сфере здравоохранения, включая профилактические обследования, диагностику, основанную на анализе изображений, прогнозирование возникновения и развития заболеваний, подбор оптимальных дозировок лекарственных препаратов, сокращение угроз пандемий, автоматизацию и точность хирургических вмешательств.

Основные факторы развития ТИИ – это увеличение объема доступных данных, в том числе данных, прошедших разметку и структурирование, а также постоянное развитие информационно-телекоммуникационной инфраструктуры для обеспечения доступа к наборам таких данных.

С развитием медицины, повышением ее доступности и повсеместного внедрения цифровых технологий в медицинскую практику[6 - Соболева С. У., Голиков В. В., Тажибов А. А. Информационные технологии в здравоохранении: особенности отраслевого применения // E-Management. State University of Management, 2021. Т. 4, №2. С. 37—43.] отмечается высокий рост количества медицинских данных: клинических, лабораторных и инструментальных[7 - Dash S., Shakyawar S. K., Sharma M. et al. Big data in healthcare: management, analysis and future prospects // J Big Data. SpringerOpen. 2019. Vol. 6, №1. P. 1—25.]. Данные – представление информации в формализованном виде, пригодном для передачи, интерпретации и обработки [2].

Большой объем данных способствует оптимальной организации интересующей сферы (в частности, здравоохранения) для достижения наилучших результатов работы. Данные могут быть использованы для прогнозирования текущих тенденций определенных параметров и будущих событий. В последние годы в медицинской практике активно внедряются электронные медицинские карты и медицинские информационные системы, что приводит к необходимости стандартизации медицинской информации.

Например, результаты лабораторных (патоморфологические исследования, клинические анализы, генетические исследования и т.д.), лучевых (КТ, МРТ, ММГ, УЗИ, рентгенография и т.д.) и сигнальных (ЭКГ, ЭЭГ, ЭНМГ и т.д.) исследований максимально стандартизованы и оцифрованы, что способствует росту количества данных по этим направлениям, инструментов для их обработки (программное обеспечение, предназначенное для обработки медицинских данных), передачи и хранения, и, как следствие, развитию ТИИ в этой области[8 - Shakhabov I. V., Melnikov Yu. Yu., Smyshlyaev A. V. Development of digital technologies in healthcare during the COVID-19 pandemic // Scientific Review. Medical Sciences. 2020. №6. P. 66—71.].

Внедрение ТИИ в сферу здравоохранения позволяет повысить качество предоставляемых услуг [1], а также снизить нагрузку на врачей. Например, при скрининге рака молочной железы требуется «двойное чтение» результатов маммографических исследований, т.е. каждое исследование должно быть просмотрено двумя специалистами.

Однако многочисленные исследования[9 - Henriksen E. L. Carlsen F., Vejborg I. M. et al. The efficacy of using computer-aided detection (CAD) for detection of breast cancer in mammography screening: a systematic review // Acta radiol. 2019. Vol. 60, №1. P. 13—18.] показывают, что одно чтение можно доверить ПО на основе ТИИ, при этом качество скрининга не ухудшается[10 - Lauritzen A. D., Rodr?guez-Ruiz A., von Euler-Chelpin M. C. et al. An Artificial Intelligence—based Mammography Screening Protocol for Breast Cancer: Outcome and Radiologist Workload // Radiology. 2022. Vol. 304, №1. P. 41—49.]. Другой пример успешного применения ПО на основе ТИИ – пандемия COVID-19: в условиях острой нехватки медицинского персонала применение ТИИ позволило уменьшить время обработки заключения КТ[11 - Морозов С. П., Гаврилов А. В., Архипов И. В. [и др.]. Влияние технологий искусственного интеллекта на длительность описаний результатов компьютерной томографии пациентов с COVID-19 в стационарном звене здравоохранения // Профилактическая медицина. 2022. Т. 25, №1. С. 14—20.], а также осуществить сортировку исследований, благодаря чему исследования пациентов в более тяжелом состоянии обрабатывались в первую очередь [3].

Однако для успешного применения ТИИ необходимо создание релевантных, репрезентативных, корректно размеченных наборов данных (НД).

НД используются не только для разработки и обучения ПО на основе ТИИ, но и их валидации, т.е. проверки качества работы ПО. Благодаря Национальной стратегии развития искусственного интеллекта в Российской Федерации стало возможным активное создание и внедрение в повседневную практику таких НД, а также инструментов их хранения, администрирования и использования.

На первый взгляд может показаться, что создание НД – несложный процесс: ведь ежедневно генерируются терабайты данных медицинской информации, а применение МИС позволяет их хранить, передавать и использовать (например, данные лучевой диагностики медицинских организаций ДЗМ хранятся в Едином радиологическом информационном сервисе – ЕРИС ЕМИАС). Тем не менее процесс создания НД (не стоит забывать о том, что они должны быть релевантными, репрезентативными и корректно размеченными) – очень сложный, имеет множество важных аспектов и вовлекает в себя большое количество специалистов, как медицинских (врачи, лаборанты), так и технических (инженеры, разработчики, аналитики и т.д.), а также смежных направлений (биофизики, кибернетики, биоинформатики).

Кроме того, недостаточно создать НД – необходимо уделить внимание инфраструктуре и инструментам хранения, использования и управления, таким, например, как библиотеки и реестры. Их основными задачами являются аннотация, интеграция и представление НД для контроля качества, удобного и повсеместного использования, в том числе для ПО на основе ТИИ.

Методологии создания наборов данных для сферы здравоохранения продолжают формироваться и в настоящее время, прежде всего – на основе масштабных научных исследований. Так, в основу настоящего учебного пособия положены результаты «Эксперимента по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения города Москвы» (mosmed.ai) – крупнейшего в мире проспективного многоцентрового клинического исследования технологий искусственного интеллекта [3].

Глава 1. НАБОРЫ ДАННЫХ И ПРИНЦИПЫ ИХ КЛАССИФИКАЦИИ

1.1. Основные понятия

Медицинские данные подразделяются на несколько подмножеств, каждое из которых является важным компонентом в обучении, оценке качества ПО на основе ТИИ и используется для других прикладных и фундаментальных задач в сфере искусственного интеллекта для здравоохранения. Каждый компонент (подмножество, набор) данных направлен на решение определенной задачи.

Набор данных (НД) – это совокупность данных, прошедших предварительную подготовку (обработку) в соответствии с требованиями законодательства Российской Федерации об информации, информационных технологиях и о защите информации и необходимых для разработки программного обеспечения на основе искусственного интеллекта [1].

Разметка данных – этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием методов машинного обучения [1].

В процессе создания, хранения и использования НД необходимо руководствоваться следующими нормативно-правовыми актами, межгосударственными и национальными стандартами:

– Указ Президента Российской Федерации от 10.10.2019 №490 «О развитии искусственного интеллекта в Российской Федерации»;

– ГОСТ 34.602—2020. Информационные технологии. Комплекс стандартов на автоматизированные системы;

– ГОСТ 19.201—78. Единая система программной документации. Техническое задание. требования к содержанию и оформлению;

– ГОСТ 19.101—77. Единая система программной документации. Виды программ и программных документов;

– ГОСТ Р 59921.1-7-2022. Системы искусственного интеллекта в клинической медицине. Алгоритмы анализа медицинских изображений;

– ГОСТ Р 8.736—2011. Государственная система обеспечения единства измерений. Измерения прямые многократные. Методы обработки результатов измерений. Основные положения;

– Федеральный закон «Об информации, информационных технологиях и о защите информации» от 27.07.2006 №149-ФЗ.

Для обучения, внутренней и внешней валидации, клинико-технических и клинических испытаний технологий искусственного интеллекта применяют эталонные наборы данных, под которыми понимают упорядоченную совокупность:

– результатов диагностических исследований одной или нескольких модальностей и/или однотипных медицинских документов;

– сведений о наличии, характере и локализации и т. д. целевых признаков; для текстовых документов – библиотеки ключевых слов, словосочетаний и их критичных сочетаний;

– сведений о верификации (опционально).