Apache cTAKES
Разработчик(и) | Фонд программного обеспечения Apache |
---|---|
Стабильная версия | 5.1.0 / 16 мая 2024 г |
Репозиторий | Репозиторий cTakes |
Написано в | Ява , Скала , Питон |
Операционная система | Кросс-платформенный |
Тип | Обработка естественного языка , Биоинформатика , Анализ текста , Извлечение информации |
Лицензия | Лицензия Апач 2.0 |
Веб-сайт | Официальный сайт |
Apache cTAKES: система клинического анализа текста и извлечения знаний (NLP) с открытым исходным кодом — это система обработки естественного языка , которая извлекает клиническую информацию из электронных медицинских записей неструктурированного текста . Он обрабатывает клинические записи, определяя типы клинических названий — лекарства, заболевания/расстройства, признаки/симптомы, анатомические участки и процедуры. Каждый именованный объект имеет атрибуты для текстового диапазона, кода отображения онтологии, контекста (семейный анамнез, текущий, не связанный с пациентом) и отрицание/не отрицание. [1]
cTAKES был создан с использованием структуры неструктурированной архитектуры управления информацией UIMA и OpenNLP . набора инструментов обработки естественного языка [2] [3]
Компоненты
[ редактировать ]Компоненты cTAKES специально подготовлены для клинической области и создают богатые лингвистические и семантические аннотации, которые могут использоваться системами поддержки принятия клинических решений и клиническими исследованиями. [4]
Эти компоненты включают в себя:
- Идентификатор именованного раздела
- Детектор границ предложения
- Токенизатор на основе правил
- Идентификатор форматированного списка
- Нормализатор
- Контекстно-зависимый токенизатор
- Тегер части речи
- фразовый чанкёр
- Аннотатор поиска по словарю
- Контекстный аннотатор
- Детектор отрицания
- Детектор неопределенности
- Детектор предметов
- Парсер зависимостей
- идентификатор статуса курения пациента
- Аннотатор упоминаний о наркотиках
История
[ редактировать ]Разработка cTAKES началась в клинике Майо в 2006 году. В команду разработчиков, возглавляемую доктором Герганой Савовой и доктором Кристофером Чютом , входили врачи, ученые-компьютерщики и инженеры-программисты. После своего внедрения cTAKES стал неотъемлемой частью инфраструктуры управления клиническими данными Mayo, обрабатывая более 80 миллионов клинических записей. [5]
Когда в начале 2010 года доктор Савова переехал в Бостонскую детскую больницу , основная команда разработчиков расширилась и включила туда своих членов. Дальнейшее внешнее сотрудничество включает: [5]
- Университет Колорадо
- Университет Брандейса
- Университет Питтсбурга
- Калифорнийский университет в Сан-Диего
Такое сотрудничество расширило возможности cTAKES на другие области, такие как временное мышление, ответы на клинические вопросы и разрешение корреляций для клинической области. [5]
В 2010 году cTAKES был принят в программу i2b2 и является центральным компонентом SHARP Area 4 . [5]
В 2013 году cTAKES выпустила свой первый выпуск в качестве проекта-инкубатора Apache Software Foundation : cTAKES 3.0 . [ нужна ссылка ]
В марте 2013 года cTAKES стал Apache Software Foundation . проектом высшего уровня (TLP) [5]
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Денеке, Керстин (31 августа 2015 г.). «Инструменты и ресурсы для извлечения информации» . Интернет-наука о здоровье: данные социальных сетей для здравоохранения . Спрингер. п. 67 . ISBN 978-3-319-20582-3 – через Google Книги.
- ^ Халифа, Абдулрахман; Мейстр, Стефан (01 декабря 2015 г.). «Адаптация существующих ресурсов обработки естественного языка для выявления факторов риска сердечно-сосудистых заболеваний в клинических записях» . Журнал биомедицинской информатики . Материалы семинара i2b2/UTHealth по общим задачам и семинару по проблемам обработки естественного языка для клинических данных, 2014 г. 58 (Дополнение): S128–S132. дои : 10.1016/j.jbi.2015.08.002 . ПМЦ 4983192 . ПМИД 26318122 .
- ^ Худаири, Салли (25 апреля 2017 г.). «Фонд программного обеспечения Apache объявляет о выпуске Apache® cTAKES™ v4.0» (пресс-релиз). Форест-Хилл, Мэриленд: Фонд программного обеспечения Apache. Новостная лента «Глобус» . Проверено 20 сентября 2017 г.
- ^ Савова, Гергана К; Масанц, Джеймс Дж; Огрен, Филипп V; Чжэн, Цзяпин; Сон, Сонхван; Киппер-Шулер, Карин С; Чут, Кристофер Дж. (2010). «Система клинического анализа текста и извлечения знаний Мэйо (cTAKES): архитектура, оценка компонентов и приложения» . Журнал Американской ассоциации медицинской информатики . 17 (5): 507–513. дои : 10.1136/jamia.2009.001560 . ISSN 1067-5027 . ПМК 2995668 . ПМИД 20819853 .
- ^ Jump up to: а б с д и «История» . Apache cTAKES™ — система извлечения знаний для клинического анализа текста . 22 июня 2015 г. Проверено 11 января 2018 г.
Внешние ссылки
[ редактировать ]- Официальный сайт cTAKES
- Страница информации о проекте Apache cTAKES из ASF
- Аннотация (ДЖАМИА)
- Консорциум Open Health по обработке естественного языка (OHNLP)
- Программа стратегических проектов перспективных исследований в области информационных технологий в здравоохранении (SHARP)
- Область SHARP 4 – Вторичное использование данных ЭМК
- Автоматизированная поисковая консоль (ARC)
- Health Information Text Extraction (HITEx) ) был разработан в рамках проекта i2b2. Это основанный на правилах конвейер НЛП, основанный на структуре GATE, разработанной Informatics for Integrating Biology и Bedside .
- Набор инструментов для исследования вычислительного языка и образования (cleartk) ( больше не поддерживается ) был разработан в Университете Колорадо в Боулдере и обеспечивает основу для разработки статистических компонентов НЛП на Java. Он построен на основе Apache UIMA .
- NegEx — это инструмент, разработанный в Университете Питтсбурга для обнаружения отрицательных терминов в клиническом тексте. Система использует триггерные термины как метод определения вероятных сценариев отрицания в предложении.
- ConText ): расширение NegEx, также разработанное Питтсбургским университетом. ConText расширяет NegEx, чтобы не только обнаруживать отрицаемые концепции, но также находить временные (недавние, исторические или гипотетические сценарии) и то, кем является Субъект (опыта) (пациент или кто-то другой).
- MetaMap (от Национальной медицинской библиотеки США ): представляет собой комплексную систему тегов понятий, построенную на основе Единой системы медицинского языка . Для использования требуется активное лицензионное соглашение UMLS Metathesaurus (и учетная запись).
- MedEx — инструмент для извлечения информации о лекарствах из клинического текста. MedEx обрабатывает клинические записи в виде произвольного текста для распознавания названий лекарств и сигнатурной информации, такой как доза препарата, частота приема, способ введения и продолжительность приема. Использование бесплатно при наличии лицензии UMLS. Это отдельное приложение для Linux и Windows.
- SecTag (иерархия тегов разделов): распознает заголовки разделов примечаний с использованием методов NLP, Байеса, коррекции орфографии и оценки. Использование бесплатно при наличии лицензии UMLS или LOINC.
- ( Стэнфордский распознаватель именованных объектов (NER) ): Стэнфордский NER представляет собой модель последовательности условных случайных полей, а также хорошо продуманные функции для распознавания именованных объектов на английском и немецком языках.
- ( Stanford CoreNLP ) — это интегрированный набор инструментов обработки естественного языка для английского языка на Java, включая токенизацию , тегирование частей речи, распознавание именованных объектов, синтаксический анализ и кореференцию.