Биомедицинский анализ текста
Биомедицинский анализ текста (включая биомедицинскую обработку естественного языка или BioNLP ) относится к методам и изучению того, как анализ текста может применяться к текстам и литературе биомедицинской области. В качестве области исследований биомедицинский анализ текста включает в себя идеи обработки естественного языка , биоинформатики , медицинской информатики и компьютерной лингвистики . Стратегии в этой области были применены к биомедицинской литературе, доступной через такие службы, как PubMed .
В последние годы научная литература перешла на электронные публикации, но объем доступной информации может быть огромным. Эта революция в издательском деле вызвала высокий спрос на методы интеллектуального анализа текста. Интеллектуальный анализ текста предлагает поиск информации (IR) и распознавание объектов (ER). [1] IR позволяет находить соответствующие документы по интересующей теме, например, через PubMed. ER практикуется, когда распознаются определенные биологические термины (например, белки или гены ) для дальнейшей обработки.
Соображения [ править ]
Применение подходов интеллектуального анализа текста к биомедицинскому тексту требует особых соображений, общих для данной области.
Наличие аннотированных текстовых данных [ править ]

Большие аннотированные корпуса, используемые при разработке и обучении методам интеллектуального анализа текста общего назначения (например, наборы диалогов из фильмов, [3] обзоры продуктов, [4] или текст статьи в Википедии) не являются специфичными для биомедицинского языка. Хотя они могут предоставить доказательства общих свойств текста, таких как части речи, они редко содержат понятия, представляющие интерес для биологов или клиницистов. Поэтому разработка новых методов определения особенностей биомедицинских документов требует создания специализированных корпусов. [5] Ресурсы, предназначенные для помощи в создании новых методов биомедицинского анализа текста, были разработаны в рамках задач «Информатика для интеграции биологии и ухода за больными» (i2b2). [6] [7] [8] и исследователи биомедицинской информатики. [9] [10] Исследователи анализа текста часто объединяют эти корпуса с контролируемыми словарями и онтологиями, доступными через Национальной медицинской библиотеки Единую систему медицинского языка (UMLS) и медицинские предметные рубрики (MeSH) .
Методы, основанные на машинном обучении , часто требуют очень больших наборов данных в качестве обучающих данных для построения полезных моделей. [11] Ручное аннотирование больших корпусов текста практически невозможно. Таким образом, данные обучения могут быть результатом слабого контроля. [12] [13] или чисто статистические методы.
Вариант структуры данных [ править ]
Как и другие текстовые документы, биомедицинские документы содержат неструктурированные данные . [14] Научные публикации имеют разный формат, содержат разную информацию, перемежаются рисунками, таблицами и другим нетекстовым контентом. Как неструктурированный текст, так и полуструктурированные элементы документа, такие как таблицы, могут содержать важную информацию, которую следует анализировать в тексте. [15] Клинические документы могут различаться по структуре и языку в зависимости от отделения и местоположения. Другие типы биомедицинского текста, например этикетки с лекарствами, [16] может следовать общим структурным принципам, но не иметь дополнительных подробностей.
Неопределенность [ править ]
Биомедицинская литература содержит утверждения о наблюдениях, которые могут не соответствовать фактам. Этот текст может выражать неуверенность или скептицизм в отношении утверждений. Без специальных адаптаций подходы к интеллектуальному анализу текста, предназначенные для выявления утверждений в тексте, могут ошибочно охарактеризовать эти «застрахованные» утверждения как факты. [17]
клинических Поддержка потребностей
Приложения для биомедицинского анализа текста, разработанные для клинического использования, должны идеально отражать нужды и запросы врачей. [5] Это вызывает беспокойство в средах, где поддержка принятия клинических решений ожидается, что будет информативной и точной. Комплексный обзор разработки и внедрения методов НЛП, применяемых к клиническим записям в произвольном порядке, связанным с хроническими заболеваниями.представлен в. [18]
с клиническими Взаимодействие системами
Новые системы интеллектуального анализа текста должны работать с существующими стандартами, электронными медицинскими записями и базами данных. [5] методы взаимодействия с клиническими системами, такими как LOINC. Разработаны [19] но требуют значительных организационных усилий для внедрения и поддержания. [20] [21]
Конфиденциальность пациентов [ править ]
Системы интеллектуального анализа текста, работающие с частными медицинскими данными, должны уважать их безопасность и обеспечивать их анонимность, когда это необходимо. [22] [23] [24]
Процессы [ править ]
Конкретные подзадачи вызывают особую озабоченность при обработке биомедицинского текста. [14]
Распознавание именованного объекта [ править ]
Разработки в области биомедицинского анализа текста включили идентификацию биологических объектов с помощью распознавания названных объектов или NER. Названия и идентификаторы биомолекул, таких как белки и гены . [25] химические соединения и лекарства, [26] и названия болезней [27] все они использовались как сущности. Большинство методов распознавания объектов поддерживаются заранее определенными лингвистическими функциями или словарями, хотя методы, включающие глубокое обучение и встраивание слов, также оказались успешными в биомедицинских НЭР. [28] [29]
Классификация и кластеризация документов [ править ]
Биомедицинские документы можно классифицировать или группировать в зависимости от их содержания и тематики. В классификации категории документов указываются вручную, [30] в то время как при кластеризации документы образуют отдельные группы, зависящие от алгоритма. [31] Эти две задачи являются типичными для контролируемых и неконтролируемых методов соответственно, но цель обеих — создание подмножеств документов на основе их отличительных особенностей. Методы кластеризации биомедицинских документов основаны на k кластеризации -средних . [31]
Открытие отношений [ править ]
Биомедицинские документы описывают связи между концепциями, будь то взаимодействия между биомолекулами, событиями, происходящими впоследствии во времени (т. е. временные отношения), или причинно-следственные связи. Методы интеллектуального анализа текста могут выполнять обнаружение связей для идентификации этих связей, часто совместно с распознаванием именованного объекта. [32]
Обнаружение сигнала хеджирования [ править ]
Проблема выявления неопределенных или «застрахованных» утверждений решалась посредством обнаружения сигналов хеджирования в биомедицинской литературе. [17]
Обнаружение претензий [ править ]
Многие исследователи разработали методы выявления конкретных научных утверждений из литературы. [33] [34] На практике этот процесс включает в себя как выделение фраз и предложений, обозначающих основные аргументы, выдвинутые авторами документа (процесс, известный как интеллектуальный анализ аргументов , с использованием инструментов, используемых в таких областях, как политология), так и сравнение утверждений для обнаружения потенциальных противоречий между ними. [34]
Извлечение информации [ править ]
Извлечение информации, или IE , — это процесс автоматического выделения структурированной информации из неструктурированного или частично структурированного текста. Процессы IE могут включать в себя несколько или все вышеперечисленные действия, включая распознавание именованных объектов, обнаружение взаимосвязей и классификацию документов, с общей целью перевода текста в более структурированную форму, например содержимое шаблона или базы знаний . В биомедицинской области IE используется для создания связей между концепциями, описанными в тексте, например, ген A ингибирует ген B , а ген C участвует в заболевании G. [35] Базы биомедицинских знаний, содержащие информацию такого типа, обычно представляют собой продукты интенсивного ручного управления, поэтому замена ручных усилий автоматизированными методами остается привлекательной областью исследований. [36] [37]
Поиск информации и ответы на вопросы [ править ]
Биомедицинский анализ текста поддерживает приложения для идентификации документов и концепций, соответствующих поисковым запросам. Поисковые системы, такие как поиск PubMed, позволяют пользователям запрашивать литературные базы данных со словами или фразами, присутствующими в содержимом документа, метаданных или индексах , таких как MeSH . Аналогичные подходы могут быть использованы для поиска медицинской литературы . Для получения более точных результатов некоторые приложения позволяют пользователям выполнять поиск с помощью запросов на естественном языке и выявлять конкретные биомедицинские взаимосвязи. [38]
16 марта 2020 года Национальная медицинская библиотека и другие организации запустили набор данных открытых исследований COVID-19 (CORD-19), позволяющий осуществлять анализ текста текущей литературы по новому вирусу. Набор данных размещен в проекте Semantic Scholar. [39] из Алленовского института искусственного интеллекта . [40] В число других участников входят Google , Microsoft Research , Центр безопасности и новых технологий и Инициатива Чана Цукерберга . [41]
Ресурсы [ править ]
Тела [ править ]
В следующей таблице перечислены подборки корпусов биомедицинских текстов и их содержание. Эти элементы включают аннотированные корпуса, источники литературы по биомедицинским исследованиям и ресурсы, часто используемые в качестве справочников по словарю и/или онтологии, такие как MeSH . Элементы, отмеченные «Да» в разделе «Свободно доступны», можно загрузить из общедоступного места.
Название корпуса | Авторы или группа | Содержание | Свободно доступен | Цитирование |
---|---|---|---|---|
2019 Биотоп бактерий | БиоНЛП-ОСТ | Аннотированные научные и учебные тексты для распознавания упоминаний микроорганизмов, микробных биотопов и фенотипов, нормализации этих упоминаний в соответствии с ресурсами знаний в данной области и выявления связей между ними. | Да | [42] |
2006 i2b2 Вызов по деидентификации и курению | i2b2 | 889 обезличенных медицинских выписок с аннотациями для идентификации пациентов и особенностей статуса курения. | Да, с регистрацией | [43] [44] |
2008 i2b2 Вызов ожирения | i2b2 | 1237 обезличенных медицинских выписок с аннотациями о наличии или отсутствии сопутствующих заболеваний, связанных с ожирением . | Да, с регистрацией | [45] |
Конкурс лекарств i2b2, 2009 г. | i2b2 | 1243 обезличенных медицинских выписки с аннотациями названий и подробностей лекарств, включая дозировку, способ применения , частоту, продолжительность, причину и присутствие в списке или описательной структуре. | Да, с регистрацией | [46] [47] |
Вызов отношений i2b2 2010 г. | i2b2 | Сводки медицинских выписок с аннотациями о медицинских проблемах, обследованиях, методах лечения и взаимосвязях между этими понятиями. Из-за ограничений IRB для исследовательских целей доступна только часть этих записей данных. | Да, с регистрацией | [6] |
Конкурс i2b2 Coreference 2011 года | i2b2 | 978 обезличенных медицинских выписок, заметок о ходе работы и других клинических отчетов, аннотированных концепциями и дополнительными ссылками . Включает корпус ODIE. | Да, с регистрацией | [48] |
2012 i2b2 Вызов временных отношений | i2b2 | 310 обезличенных медицинских выписок с аннотациями событий и временных связей. | Да, с регистрацией | [7] |
Конкурс деидентификации i2b2 2014 г. | i2b2 | 1304 обезличенных продольных медицинских карты с аннотациями для защищенной медицинской информации (PHI) . | Да, с регистрацией | [49] |
2014 i2b2 Конкурс факторов риска сердечно-сосудистых заболеваний | i2b2 | 1304 обезличенных продольных медицинских карты с аннотациями о факторах риска заболеваний сердечной артерии . | Да, с регистрацией | [50] |
AIMed | Бунеску и др. | 200 тезисов, аннотированных по белок-белковым взаимодействиям , а также тезисы с отрицательными примерами, не содержащие белок-белковых взаимодействий. | Да | [51] |
БиоС-БиоГРИД | БИОКРЕАТИВ | 120 полнотекстовых исследовательских статей с аннотациями по межбелковым взаимодействиям . | Да | [52] |
БИОКРЕАТИВ 1 | БИОКРЕАТИВ | 15 000 предложений (10 000 обучающих и 5 000 тестовых), снабженных аннотациями по названиям белков и генов. 1000 полнотекстовых статей по биомедицинским исследованиям, аннотированных названиями белков и терминами онтологии генов . | Да | [53] |
БИОКРЕАТИВ 2 | БИОКРЕАТИВ | 15 000 предложений (10 000 обучающих и 5 000 тестовых, отличающихся от первого корпуса), аннотированных по названиям белков и генов. 542 тезисов, связанных с EntrezGene идентификаторами . Разнообразные научные статьи, аннотированные на особенности белок-белковых взаимодействий . | Да | [54] |
Корпус задач BioCreative V CDR (BC5CDR) | БИОКРЕАТИВ | 1500 статей (название и аннотация), опубликованных в 2014 г. или позднее, с аннотациями по 4409 химическим веществам, 5818 заболеваниям и 3116 взаимодействиям между химическими веществами. | Да | [55] |
БиоИнфер | Пийсало и др. | 1100 предложений из рефератов биомедицинских исследований, аннотированных по поводу отношений, именованных сущностей и синтаксических зависимостей. | Нет | [56] |
Биоскоп | Винс и др. | 1954 клинических отчета, 9 статей и 1273 реферата с лингвистическими примечаниями и терминами, обозначающими отрицание или неопределенность. | Да | [57] |
Биотекст, распознающий определения сокращений | Биотекстовый проект | 1000 рефератов на тему «дрожжи» с аннотациями по сокращениям и их значениям. | Да | [58] |
Данные о белок-белковом взаимодействии BioText | Биотекстовый проект | 1322 предложения, описывающие белок-белковые взаимодействия между ВИЧ-1 и белками человека, с указанием типов взаимодействия. | Да | [59] |
База данных сравнительной токсикогеномики | Дэвис и др. | База данных вручную созданных связей между химическими веществами, генными продуктами, фенотипами, болезнями и воздействием окружающей среды. | Да | [60] |
РЕМЕСЛО | Верспур и др. | 97 полнотекстовых биомедицинских публикаций, аннотированных лингвистическими структурами и биологическими концепциями. | Да | [61] |
ГЕНИАЛЬНОЕ Тело | Проект ГЕНИЯ | 1999 рефератов биомедицинских исследований по темам «человек», «клетки крови» и «факторы транскрипции», аннотированных по частям речи, синтаксису, терминам, событиям, отношениям и кореференциям . | Да | [62] [63] |
ФамПлекс | Бахман и др. | Названия и семейства белков связаны с уникальными идентификаторами. Включает аффиксов наборы . | Да | [64] |
Резюме FlySlip | ФлайСлип | 82 реферата исследований дрозофилы , снабженных названиями генов. | Да | [65] |
Полные документы FlySlip | ФлайСлип | 5 исследовательских статей о дрозофиле, снабженных анафорическими связями между именными фразами, относящимися к генам и биологически связанным объектам. | Да | [66] |
Спекулятивные предложения FlySlip | ФлайСлип | Более 1500 предложений, помеченных как умозрительные или не умозрительные. Содержит аннотации к пунктам. | Да | [67] |
ИЭПА | Дин и др. | 486 предложений из рефератов биомедицинских исследований, аннотированных для пар сопутствующих химических веществ, включая белки. | Нет | [68] |
Корпус JNLPBA | Ким и др. | Расширенная версия версии 3 корпуса GENIA для задач NER. | Нет | [69] |
Изучение языка в логике (LLL) | Неделлек и др. | 77 предложений из исследовательских статей о бактерии Bacillus subtilis , с аннотациями о белок-генных взаимодействиях. | Да | [70] |
Медицинские предметные рубрики (MeSH) | Национальная медицинская библиотека | Иерархически организованная терминология для индексирования и каталогизации биомедицинских документов. | Да | [71] |
Метатезавр | Национальная медицинская библиотека / UMLS | 3,67 миллиона понятий и 14 миллионов названий понятий, сопоставленных между более чем 200 источниками биомедицинской лексики и идентификаторов. | Да, с лицензионным соглашением UMLS | [72] [73] |
МИМИК-III | Лаборатория вычислительной физиологии Массачусетского технологического института | обезличенные данные, связанные с 53 423 госпитализациями взрослых пациентов. | Требуется обучение и официальный запрос на доступ | [74] |
Я ненавижу тело | Савова и др. | 180 клинических заметок, аннотированных 5992 парами ссылок . | Нет | [75] |
ОСУМЕД | Херш и др. | 348 566 рефератов биомедицинских исследований и индексированная информация из MEDLINE , включая MeSH (по состоянию на 1991 год). | Да | [76] |
PMC Подмножество открытого доступа | Национальная медицинская библиотека / PubMed Central | Более 2 миллионов исследовательских статей, обновляемых еженедельно. | Да | [77] |
RxНорм | Национальная медицинская библиотека / UMLS | Нормализованные названия клинических препаратов и упаковок лекарств с объединением ингредиентов, дозировкой и формой, а также присвоенными типами из семантической сети. | Да, с лицензионным соглашением UMLS | [78] |
Семантическая сеть | Национальная медицинская библиотека / UMLS | Списки 133 семантических типов и 54 семантических отношений, охватывающих биомедицинские понятия и словарный запас. | Да, с лицензионным соглашением UMLS | [79] [80] |
СПЕЦИАЛЬНЫЙ лексикон | Национальная медицинская библиотека / UMLS | Синтаксический лексикон биомедицинского и общего английского языка. | Да | [81] [82] |
Разрешение смысла слова (WSD) | Национальная медицинская библиотека / UMLS | 203 неоднозначных слова и 37 888 автоматически извлеченных случаев их использования в публикациях по биомедицинским исследованиям. | Да, с лицензионным соглашением UMLS | [83] [84] |
Япекс | Франзен и др. | 200 тезисов биомедицинских исследований, снабженных названиями белков. | Нет | [85] |
Вложения слов [ править ]
Несколько групп разработали наборы биомедицинской лексики, сопоставленные с векторами действительных чисел, известные как векторы слов или встраивания слов . Источники предварительно обученных вложений, специфичных для биомедицинской лексики, перечислены в таблице ниже. Большинство из них являются результатами модели word2vec , разработанной Миколовым и др. [86] или варианты word2vec.
Установить имя | Авторы или группа | Содержание и источник | Цитирование |
---|---|---|---|
БиоASQword2vec | БиоASQ | Векторы созданы word2vec на основе 10 876 004 рефератов английского PubMed . | [87] |
Ресурсы bio.nlplab.org | Пийсало и др. | Коллекция векторов слов, созданных с помощью различных подходов и обученных на тексте из PubMed и PubMed Central . | [88] |
БиоВек | Асгари и Мофрад | Векторы для последовательностей генов и белков, обученные с использованием Swiss-Prot . | [89] |
РадиологияОтчетВстраивание | Банерджи и др. | Векторы созданы word2vec на основе текста 10 000 отчетов о радиологии. | [90] |
Приложения [ править ]

Приложения интеллектуального анализа текста в биомедицинской области включают вычислительные подходы, помогающие в исследованиях стыковки белков , [91] белковые взаимодействия , [92] [93] и ассоциации белковых заболеваний. [94] Методы интеллектуального анализа текста имеют несколько преимуществ перед традиционным ручным поиском ассоциаций. Алгоритмы интеллектуального анализа текста могут идентифицировать и извлекать информацию из огромного количества литературы, причем более эффективно, чем ручное курирование. Это включает в себя интеграцию данных из разных источников, включая литературу, базы данных и результаты экспериментов. Эти алгоритмы изменили процесс идентификации и определения приоритетности новых генов и ассоциаций генов и заболеваний, которые ранее игнорировались. [95]




Эти методы являются основой для облегчения систематического поиска пропущенной научной и биомедицинской литературы, которая может иметь значительную связь между исследованиями. Комбинация информации может способствовать новым открытиям и гипотезам, особенно при интеграции наборов данных. Следует отметить, что качество базы данных так же важно, как и ее размер. Многообещающие методы интеллектуального анализа текста, такие как iProLINK (интегрированная литературная информация и знания по белкам), были разработаны для поиска источников данных, которые могут помочь в исследованиях интеллектуального анализа текста в областях картирования библиографии, извлечения аннотаций, распознавания объектов по имени белка и разработки онтологии белков. [96] Курируемые базы данных, такие как UniProt, могут ускорить доступность целевой информации не только о генетических последовательностях, но также о литературе и филогении.
кластера Идентификация генов
методы определения ассоциации кластеров генов , полученных с помощью микрочиповых экспериментов, с биологическим контекстом, представленным в соответствующей литературе. Разработаны [97]
Белковые взаимодействия [ править ]
Автоматическое извлечение белковых взаимодействий [98] ассоциации белков с функциональными концепциями (например, терминами онтологии генов ). и были изучены [ нужна ссылка ] Поисковая система PIE была разработана для выявления и возврата упоминаний о межбелковом взаимодействии из статей, индексируемых в MEDLINE . [99] Извлечение кинетических параметров из текста или субклеточного расположения белков также решается с помощью технологий извлечения информации и интеллектуального анализа текста. [ нужна ссылка ]
генов Ассоциации и заболеваний
Вычислительная приоритезация генов является важным шагом в понимании генетической основы заболеваний, особенно в рамках генетического сцепления анализа . Анализ текста и другие вычислительные инструменты извлекают соответствующую информацию, в том числе ассоциации генов и заболеваний, из многочисленных источников данных, а затем применяют различные алгоритмы ранжирования для определения приоритетности генов на основе их значимости для конкретного заболевания. [100] Анализ текста и приоритезация генов позволяют исследователям сосредоточить свои усилия на наиболее перспективных кандидатах для дальнейших исследований.
Вычислительные инструменты для определения приоритетов генов продолжают разрабатываться и анализироваться. Одна группа изучала эффективность различных методов анализа текста для определения приоритетности генов болезней. Они исследовали различные словари доменов, схемы представления текста и алгоритмы ранжирования, чтобы найти лучший подход к идентификации генов, вызывающих заболевания, и установить эталон . [101]
Генно-признаковые ассоциации [ править ]
Группа сельскохозяйственной геномики идентифицировала гены, связанные с репродуктивными характеристиками крупного рогатого скота , используя, среди прочего, интеллектуальный анализ текста. [102]
фразового анализа к Применение ассоциациям заболеваний
В ходе исследования по интеллектуальному анализу текста была собрана коллекция из 709 основных белков внеклеточного матрикса и связанных с ними белков на основе двух баз данных: MatrixDB ( matrixdb.univ-lyon1.fr ) и UniProt . Этот набор белков имел управляемый размер и богатую связанную информацию, что делало его пригодным для применения в инструментах интеллектуального анализа текста. Исследователи провели анализ фраз для перекрестного изучения отдельных белков внеклеточного матрикса в биомедицинской литературе, посвященной шести категориям сердечно-сосудистых заболеваний . Они использовали конвейер анализа фраз — контекстно-зависимую семантическую онлайн-аналитическую обработку (CaseOLAP). [103] затем семантически оценили все 709 белков в соответствии с их целостностью, популярностью и отличительностью, используя конвейер CaseOLAP. Исследование анализа текста подтвердило существующие взаимосвязи и предоставило информацию о ранее неизвестных биологических процессах в патофизиологии сердечно-сосудистой системы. [94]
Программные инструменты [ править ]
Поисковые системы [ править ]
Поисковые системы, предназначенные для поиска биомедицинской литературы , соответствующей запросу пользователя, часто полагаются на подходы интеллектуального анализа текста. Общедоступные инструменты, специально предназначенные для исследовательской литературы, включают поиск PubMed , Europe PubMed Central , GeneView, поиск [104] и АПСЕ [105] Аналогичным образом были разработаны поисковые системы и системы индексирования, специально предназначенные для биомедицинских данных, включая DataMed. [106] и ОмиксДИ. [107]
Некоторые поисковые системы, такие как Essie, [108] ОнкоПоиск, [109] ПабДжин , [110] [111] и ГоПубМед [112] ранее были общедоступными, но с тех пор были прекращены, устарели или интегрированы в коммерческие продукты.
Системы анализа медицинских записей [ править ]
Электронные медицинские записи (EMR) и электронные медицинские записи (EHR) собираются клиническим персоналом в ходе диагностики и лечения. Хотя эти записи обычно включают структурированные компоненты с предсказуемыми форматами и типами данных, остальная часть отчетов часто представляет собой свободный текст и затрудняет поиск, что приводит к проблемам с уходом за пациентами. [113] Для анализа этих частей произвольного текста были разработаны многочисленные комплексные системы и инструменты. [114] Система MedLEE изначально была разработана для анализа отчетов о радиологических исследованиях органов грудной клетки , но позже была расширена и для других тем отчетов. [115] Система клинического анализа текста и извлечения знаний (cTAKES ) аннотирует клинический текст, используя словарь понятий. [116] Система CLAMP предлагает аналогичную функциональность с удобным интерфейсом. [117]
Фреймворки [ править ]
Вычислительные платформы были разработаны для быстрого создания инструментов для задач биомедицинского анализа текста. SwellShark [118] представляет собой основу для биомедицинской NER, которая не требует данных, размеченных человеком, но использует ресурсы для слабого контроля (например, семантические типы UMLS ). Платформа SparkText [119] использует Apache Spark потоковую передачу данных , базу данных NoSQL и базовые методы машинного обучения для построения прогнозных моделей на основе научных статей.
API [ править ]
Некоторые инструменты биомедицинского анализа текста и обработки естественного языка доступны через интерфейсы прикладного программирования или API . NOBLE Coder выполняет распознавание концепций через API. [120]
Конференции [ править ]
На следующих научных конференциях и семинарах проводятся дискуссии и презентации, посвященные достижениям в области биомедицинского анализа текста. Большинство публикует труды .
Название конференции | Сессия | Слушания |
---|---|---|
Ежегодное собрание Ассоциации компьютерной лингвистики (ACL) | пленарное заседание и в рамках семинара БиоНЛП | |
Семинар ACL BioNLP | [121] | |
Ежегодное собрание Американской ассоциации медицинской информатики (AMIA) | на пленарном заседании | |
Интеллектуальные системы молекулярной биологии (ISMB) | на пленарном заседании и на семинарах BioLINK и Биоонтологии | [122] |
Международная конференция по биоинформатике и биомедицине (BIBM) | [123] | |
Международная конференция по управлению информацией и знаниями (CIKM) | в рамках Международного семинара по интеллектуальному анализу данных и текста в биомедицинской информатике (DTMBIO) | [124] |
Ежегодное собрание Североамериканской ассоциации компьютерной лингвистики (NAACL) | пленарное заседание и в рамках семинара БиоНЛП | |
Тихоокеанский симпозиум по биокомпьютингу (PSB) | на пленарном заседании | [125] |
Практическое применение вычислительной биологии и биоинформатики (PACBB) | [126] | |
Конференция по поиску текста (TREC) | ранее как часть направления TREC Genomics ; с 2018 года входит в программу Precision Medicine Track | [127] |
Журналы [ править ]
Различные академические журналы, публикующие рукописи по биологии и медицине, включают темы, связанные с программным обеспечением для интеллектуального анализа текста и обработки естественного языка. Некоторые журналы, в том числе Журнал Американской ассоциации медицинской информатики (JAMIA) и Журнал биомедицинской информатики, являются популярными публикациями по этим темам.
Ссылки [ править ]
- ^ Йенсен, Ларс Юл; Сарич, Жасмин; Борк, Пер (февраль 2006 г.). «Литературная добыча для биолога: от поиска информации к биологическому открытию» . Обзоры природы Генетика . 7 (2): 119–129. дои : 10.1038/nrg1768 . ISSN 1471-0056 . ПМИД 16418747 . S2CID 423509 .
- ^ Вестергаард Д., Стерфельдт Х.Х., Тонсберг К., Йенсен Л.Дж., Брунак С. (февраль 2018 г.). «Всеобъемлющее и количественное сравнение анализа текста в 15 миллионах полнотекстовых статей с соответствующими рефератами» . PLOS Вычислительная биология . 14 (2): e1005962. Бибкод : 2018PLSCB..14E5962W . дои : 10.1371/journal.pcbi.1005962 . ПМЦ 5831415 . ПМИД 29447159 .
- ^ Данеску-Никулеску-Мизил С, Ли Л (2011). Хамелеоны в воображаемых разговорах: новый подход к пониманию координации языкового стиля в диалогах . стр. 76–87. arXiv : 1106.3077 . Бибкод : 2011arXiv1106.3077D . ISBN 978-1-932432-95-4 .
{{cite book}}
:|journal=
игнорируется ( помогите ) - ^ Маколи Дж., Лесковец Дж. (12 октября 2013 г.). «Скрытые факторы и скрытые темы: понимание параметров рейтинга с помощью текста обзора». Материалы 7-й конференции ACM по рекомендательным системам . АКМ. стр. 165–172. дои : 10.1145/2507157.2507163 . ISBN 978-1-4503-2409-0 . S2CID 6440341 .
- ↑ Перейти обратно: Перейти обратно: а б с Оно-Мачадо Л., Надкарни П., Джонсон К. (2013). «Обработка естественного языка: алгоритмы и инструменты для извлечения вычислительной информации из электронных медицинских записей и биомедицинской литературы» . Журнал Американской ассоциации медицинской информатики . 20 (5): 805. doi : 10.1136/amiajnl-2013-002214 . ПМЦ 3756279 . ПМИД 23935077 .
- ↑ Перейти обратно: Перейти обратно: а б Узунер О., Южный БР, Шен С., ДюВалл С.Л. (2011). «Конкурс i2b2/VA 2010 по концепциям, утверждениям и связям в клиническом тексте» . Журнал Американской ассоциации медицинской информатики . 18 (5): 552–6. дои : 10.1136/amiajnl-2011-000203 . ПМК 3168320 . ПМИД 21685143 .
- ↑ Перейти обратно: Перейти обратно: а б Сунь В., Румшиский А., Узунер О. (2013). «Оценка временных отношений в клиническом тексте: i2b2 Challenge 2012» . Журнал Американской ассоциации медицинской информатики . 20 (5): 806–13. дои : 10.1136/amiajnl-2013-001628 . ПМЦ 3756273 . ПМИД 23564629 .
- ^ Стаббс А., Котфила С., Узунер О. (декабрь 2015 г.). «Автоматизированные системы для деидентификации продольных клинических историй: обзор общей задачи i2b2/UTHealth 2014 года, трек 1» . Журнал биомедицинской информатики . 58 (Приложение): S11–9. дои : 10.1016/j.jbi.2015.06.007 . ПМЦ 4989908 . ПМИД 26225918 .
- ^ Олбрайт Д., Ланфранчи А., Фредриксен А., Стайлер В.Ф., Уорнер С., Хван Дж.Д., Чой Дж.Д., Длигач Д., Нильсен Р.Д., Мартин Дж., Уорд В., Палмер М., Савова Г.К. (2013). «К комплексным синтаксическим и семантическим аннотациям клинического повествования» . Журнал Американской ассоциации медицинской информатики . 20 (5): 922–30. дои : 10.1136/amiajnl-2012-001317 . ПМЦ 3756257 . ПМИД 23355458 .
- ^ Бада М., Эккерт М., Эванс Д., Гарсия К., Шипли К., Ситников Д., Баумгартнер В.А., Коэн К.Б., Верспур К., Блейк Дж.А., Хантер Л.Е. (июль 2012 г.). «Аннотация понятий в корпусе КРАФТ» . БМК Биоинформатика . 13 (1): 161. дои : 10.1186/1471-2105-13-161 . ПМЦ 3476437 . ПМИД 22776079 .
- ^ Хольцингер А, Юришица I (2014). «Обнаружение знаний и интеллектуальный анализ данных в биомедицинской информатике: будущее за интегративными интерактивными решениями машинного обучения». Интерактивное обнаружение знаний и интеллектуальный анализ данных в биомедицинской информатике . Конспекты лекций по информатике. Том. 8401. Шпрингер Берлин Гейдельберг. стр. 1–18. дои : 10.1007/978-3-662-43968-5_1 . ISBN 9783662439678 .
- ^ Ратнер А., Бах С.Х., Эренберг Х., Фрис Дж., Ву С., Ре К. (ноябрь 2017 г.). «Шноркель: быстрое создание обучающих данных со слабым контролем» . Труды Фонда VLDB . 11 (3): 269–282. arXiv : 1711.10160 . Бибкод : 2017arXiv171110160R . дои : 10.14778/3157794.3157797 . ПМЦ 5951191 . ПМИД 29770249 .
- ^ Рен X, Ву З, Хе В, Цюй М, Восс ЧР, Джи Х, Абдельзахер ТФ , Хан Дж (03 апреля 2017 г.). «CoType: совместное извлечение типизированных сущностей и связей с базами знаний» . Материалы 26-й Международной конференции по Всемирной паутине . WWW '17. Руководящий комитет международных конференций по Всемирной паутине. стр. 1015–1024. дои : 10.1145/3038912.3052708 . ISBN 9781450349130 . S2CID 1724837 .
- ↑ Перейти обратно: Перейти обратно: а б Эрхардт Р.А., Шнайдер Р., Блашке С. (апрель 2006 г.). «Состояние методов анализа текста, применяемых к биомедицинскому тексту». Открытие наркотиков сегодня . 11 (7–8): 315–25. дои : 10.1016/j.drudis.2006.02.011 . ПМИД 16580973 .
- ^ Милошевич Н., Грегсон С., Эрнандес Р., Ненадич Г. (февраль 2019 г.). «Система извлечения информации из таблиц биомедицинской литературы». Международный журнал по анализу и распознаванию документов . 22 (1): 55–78. arXiv : 1902.10031 . Бибкод : 2019arXiv190210031M . дои : 10.1007/s10032-019-00317-0 . S2CID 62880746 .
- ^ Демнер-Фушман Д., Шушан С.Е., Родригес Л., Аронсон А.Р., Ланг Ф., Роджерс В., Робертс К., Тоннинг Дж. (январь 2018 г.). «Набор данных из 200 структурированных этикеток продуктов с пометками о побочных реакциях на лекарства» . Научные данные . 5 : 180001. Бибкод : 2018NatSD...580001D . дои : 10.1038/sdata.2018.1 . ПМК 5789866 . ПМИД 29381145 .
- ↑ Перейти обратно: Перейти обратно: а б Агарвал С., Ю. Х. (декабрь 2010 г.). «Обнаружение сигналов хеджирования и их объем в биомедицинском тексте с условными случайными полями» . Журнал биомедицинской информатики . 43 (6): 953–61. дои : 10.1016/j.jbi.2010.08.003 . ПМЦ 2991497 . ПМИД 20709188 .
- ^ Шейхалишахи С., Миотто Р., Дадли Дж.Т., Лавелли А., Ринальди Ф., Османи В. (апрель 2019 г.). «Обработка естественного языка клинических заметок о хронических заболеваниях: систематический обзор» . ЖМИР Мед Информ . 7 (2): e12239. дои : 10.2196/12239 . ПМК 6528438 . ПМИД 31066697 .
- ^ Ванденбусше П.Ю., Кормон С., Андре С., Даниэль С., Делахус Дж., Шарле Дж., Лепаж Э. (2013). «Внедрение и управление словарем биомедицинских наблюдений в крупной информационной системе здравоохранения» . Журнал Американской ассоциации медицинской информатики . 20 (5): 940–6. дои : 10.1136/amiajnl-2012-001410 . ПМК 3756262 . ПМИД 23635601 .
- ^ Жаннот А.С., Заплетал Э., Авилах П., Мамзер М.Ф., Бургун А., Дегуле П. (июнь 2017 г.). «Хранилище клинических данных больницы Университета Жоржа Помпиду: 8-летний опыт наблюдения». Международный журнал медицинской информатики . 102 : 21–28. дои : 10.1016/j.ijmedinf.2017.02.006 . ПМИД 28495345 .
- ^ Леви Б. «Проблема семантики здравоохранения» . www.fortherecordmag.com . Издательская компания Грейт-Вэлли . Проверено 4 октября 2018 г.
- ^ Гудвин Л.К., Пратер Дж.К. (2002). «Защита конфиденциальности пациентов при анализе клинических данных». Журнал управления медицинской информацией . 16 (4): 62–7. ПМИД 12365302 .
- ^ Такер К., Брэнсон Дж., Диллин М., Холлис С., Лафлин П., Никсон М.Дж., Уильямс З. (июль 2016 г.). «Защита конфиденциальности пациентов при обмене данными клинических исследований на уровне пациентов» . Методология медицинских исследований BMC . 16 (S1): 77. дои : 10.1186/s12874-016-0169-4 . ПМЦ 4943495 . ПМИД 27410040 .
- ^ Грейвс С. (2013). «Конфиденциальность, электронные медицинские записи и врач». Перспективы биологии и медицины . 56 (1): 105–25. дои : 10.1353/pbm.2013.0003 . ПМИД 23748530 . S2CID 25816887 .
- ^ Лезер У, Хакенберг Дж (1 января 2005 г.). «Что делает имя гена? Распознавание названного объекта в биомедицинской литературе» . Брифинги по биоинформатике . 6 (4): 357–369. дои : 10.1093/нагрудник/6.4.357 . ISSN 1467-5463 . ПМИД 16420734 .
- ^ Краллингер М., Лейтнер Ф., Рабал О., Васкес М., Оярсабаль Дж., Валенсия А. «Обзор задачи распознавания химического соединения и названия лекарства (CHEMDNER)» (PDF) . Материалы четвертого семинара по оценке биокреативных задач . 2 :6–37.
- ^ Химено А., Хименес-Руис Э., Ли В., Годан С., Берланга Р., Ребхольц-Шуман Д. (апрель 2008 г.). «Оценка заболевания, распознавание сущностей по корпусу аннотированных предложений» . БМК Биоинформатика . 9 (Дополнение 3): S3. дои : 10.1186/1471-2105-9-s3-s3 . ПМК 2352871 . ПМИД 18426548 .
- ^ Хабиби М., Вебер Л., Невес М., Вигандт Д.Л., Лезер У. (июль 2017 г.). «Глубокое обучение с встраиванием слов улучшает распознавание биомедицинских именованных объектов» . Биоинформатика . 33 (14): i37–i48. doi : 10.1093/биоинформатика/btx228 . ПМЦ 5870729 . ПМИД 28881963 .
- ^ Фуррер Л., Корнелиус Дж., Ринальди Ф. (март 2022 г.). «Параллельная маркировка последовательностей для распознавания концепций» . БМК Биоинформатика . 22 (Приложение 1): 623. doi : 10.1186/s12859-021-04511-y . ПМЦ 8943923 . ПМИД 35331131 .
- ^ Коэн А.М. (2006). «Эффективный подход общего назначения для автоматизированной классификации биомедицинских документов» . AMIA ... Материалы ежегодного симпозиума. Симпозиум АМИА . 2006 : 161–5. ПМЦ 1839342 . ПМИД 17238323 .
- ↑ Перейти обратно: Перейти обратно: а б Сюй Р., Вунш, округ Колумбия (2010). «Алгоритмы кластеризации в биомедицинских исследованиях: обзор». Обзоры IEEE в области биомедицинской инженерии . 3 : 120–54. дои : 10.1109/rbme.2010.2083647 . ПМИД 22275205 . S2CID 206522771 .
- ^ Родригес-Эстебан Р. (декабрь 2009 г.). «Биомедицинский анализ текста и его приложения» . PLOS Вычислительная биология . 5 (12): e1000597. Бибкод : 2009PLSCB...5E0597R . дои : 10.1371/journal.pcbi.1000597 . ПМК 2791166 . ПМИД 20041219 .
- ^ Блейк С. (апрель 2010 г.). «Помимо генов, белков и рефератов: выявление научных утверждений из полнотекстовых биомедицинских статей» . Журнал биомедицинской информатики . 43 (2): 173–89. дои : 10.1016/j.jbi.2009.11.001 . ПМИД 19900574 .
- ↑ Перейти обратно: Перейти обратно: а б Аламри А., Стивенсони М. (2015). «Автоматическое выявление потенциально противоречивых утверждений для поддержки систематических обзоров». Международная конференция IEEE по биоинформатике и биомедицине (BIBM) , 2015 г. IEEE. стр. 930–937. дои : 10.1109/bibm.2015.7359808 . ISBN 978-1-4673-6799-8 . S2CID 28079483 .
- ^ Флерен В.В., Алкема В. (март 2015 г.). «Применение интеллектуального анализа текста в биомедицинской сфере». Методы . 74 : 97–106. дои : 10.1016/j.ymeth.2015.01.015 . ПМИД 25641519 .
- ^ Карп П.Д. (01 января 2016 г.). «Можем ли мы заменить курирование программным обеспечением для извлечения информации?» . База данных . 2016 : baw150. дои : 10.1093/база данных/baw150 . ПМК 5199131 . ПМИД 28025341 .
- ^ Краллингер М., Валенсия А., Хиршман Л. (2008). «Связывание генов с литературой: интеллектуальный анализ текста, извлечение информации и поисковые приложения для биологии» . Геномная биология . 9 (Дополнение 2): S8. дои : 10.1186/gb-2008-9-s2-s8 . ПМЦ 2559992 . ПМИД 18834499 .
- ^ Невес М., Лезер У (март 2015 г.). «Ответы на вопросы по биологии». Методы . 74 : 36–46. дои : 10.1016/j.ymeth.2014.10.023 . ПМИД 25448292 .
- ^ Ученый-семантик. (2020) «Избавьтесь от беспорядка: [Открытый доступ] Загрузите набор данных открытых исследований коронавируса». Веб-сайт ученого-семантика Дата обращения 30 марта 2020 г.
- ^ Бреннан, Патти. (24 марта 2020 г.). «Блог: Как библиотека реагирует на глобальный кризис в области здравоохранения?». Веб-сайт Национальной медицинской библиотеки Проверено 30 марта 2020 г.
- ^ Брейнард Дж. (13 мая 2020 г.). «Ученые тонут в статьях о COVID-19. Смогут ли новые инструменты удержать их на плаву?» . Наука | АААС . Проверено 17 мая 2020 г.
- ^ Босси Р., Дележе Л., Шай Э., Ба М., Неделлек К. (2019). Биотоп бактерий на БиоНЛП открывает общие задания 2019 . Материалы 5-го семинара по БиоНЛП открытые общие задачи. Ассоциация компьютерной лингвистики. стр. 121–131. дои : 10.18653/v1/D19-5719 .
- ^ Узунер О, Луо Й, Соловиц П (1 сентября 2007 г.). «Оценка современного состояния автоматической деидентификации» . Журнал Американской ассоциации медицинской информатики . 14 (5): 550–63. дои : 10.1197/jamia.m2444 . ЧВК 1975792 . ПМИД 17600094 .
- ^ Узунер О, Гольдштейн И, Луо Ю, Кохане И (1 января 2008 г.). «Определение курения пациента по выписным книжкам» . Журнал Американской ассоциации медицинской информатики . 15 (1): 14–24. дои : 10.1197/jamia.m2408 . ПМК 2274873 . ПМИД 17947624 .
- ^ Узунер О (2009). «Распознавание ожирения и сопутствующих заболеваний по скудным данным» . Журнал Американской ассоциации медицинской информатики . 16 (4): 561–70. дои : 10.1197/jamia.M3115 . ПМК 2705260 . ПМИД 19390096 .
- ^ Узунер О, Шолти И, Ся Ф, Кадаг Э (2010). «Эксперимент сообщества по аннотациям для получения достоверной информации о лекарствах i2b2» . Журнал Американской ассоциации медицинской информатики . 17 (5): 519–23. дои : 10.1136/jamia.2010.004200 . ПМЦ 2995684 . ПМИД 20819855 .
- ^ Узунер О, Шолти И, Кадаг Э (2010). «Извлечение информации о лекарствах из клинического текста» . Журнал Американской ассоциации медицинской информатики . 17 (5): 514–8. дои : 10.1136/jamia.2010.003947 . ПМЦ 2995677 . ПМИД 20819854 .
- ^ Узунер О., Боднари А., Шен С., Форбуш Т., Пестиан Дж., Южный БР (2012). «Оценка современного уровня разрешения кореференций для электронных медицинских записей» . Журнал Американской ассоциации медицинской информатики . 19 (5): 786–91. дои : 10.1136/amiajnl-2011-000784 . ПМЦ 3422835 . ПМИД 22366294 .
- ^ Стаббс А., Узунер О. (декабрь 2015 г.). «Аннотирование продольных клинических описаний для деидентификации: корпус i2b2/UTHealth 2014 года» . Журнал биомедицинской информатики . 58 (Приложение): S20–9. дои : 10.1016/j.jbi.2015.07.020 . ПМЦ 4978170 . ПМИД 26319540 .
- ^ Стаббс А., Узунер О. (декабрь 2015 г.). «Аннотация факторов риска сердечно-сосудистых заболеваний в клинических описаниях пациентов с диабетом» . Журнал биомедицинской информатики . 58 (Приложение): S78–91. дои : 10.1016/j.jbi.2015.05.009 . ПМЦ 4978180 . ПМИД 26004790 .
- ^ Бунеску Р., Ге Р., Кейт Р.Дж., Маркотт Э.М., Муни Р.Дж., Рамани А.К., Вонг Ю.В. (февраль 2005 г.). «Сравнительные эксперименты по обучению экстракторов информации для белков и их взаимодействий». Искусственный интеллект в медицине . 33 (2): 139–55. CiteSeerX 10.1.1.10.2168 . дои : 10.1016/j.artmed.2004.07.016 . ПМИД 15811782 .
- ^ Исламай Доган Р., Ким С., Чатр-Арьямонтри А., Чанг К.С., Оттред Р., Раст Дж., Уилбур У.Дж., Комо, округ Колумбия, Долински К., Тайерс М. (01.01.2017). «Корпус BioC-BioGRID: полнотекстовые статьи с аннотациями для изучения белок-белковых и генетических взаимодействий» . База данных . 2017 : baw147. дои : 10.1093/база данных/baw147 . ПМЦ 5225395 . ПМИД 28077563 .
- ^ Хиршман Л., Йе А., Блашке С., Валенсия А. (2005). «Обзор BioCreAtIVE: критическая оценка извлечения информации для биологии» . БМК Биоинформатика . 6 (Приложение 1): S1. дои : 10.1186/1471-2105-6-S1-S1 . ПМК 1869002 . ПМИД 15960821 .
- ^ Краллингер М., Морган А., Смит Л., Лейтнер Ф., Танабе Л., Уилбур Дж., Хиршман Л., Валенсия А. (2008). «Оценка систем интеллектуального анализа текста для биологии: обзор второй задачи сообщества BioCreative» . Геномная биология . 9 (Приложение 2): S1. дои : 10.1186/gb-2008-9-s2-s1 . ПМК 2559980 . ПМИД 18834487 .
- ^ Ли Дж., Сан Ю., Джонсон Р.Дж., Скиаки Д., Вэй Ч., Лиман Р., Дэвис А.П., Маттингли СиДж., Вигерс Т.К., Лу З. (2016). «Корпус задач BioCreative V CDR: ресурс для извлечения связей с химическими заболеваниями» . База данных . 2016 : baw068. дои : 10.1093/база данных/baw068 . ПМЦ 4860626 . ПМИД 27161011 .
- ^ Пюйсало С., Гинтер Ф., Хеймонен Дж., Бьерне Дж., Боберг Дж., Ярвинен Дж., Салакоски Т. (февраль 2007 г.). «БиоИнфер: корпус для извлечения информации в биомедицинской сфере» . БМК Биоинформатика . 8 (1): 50. дои : 10.1186/1471-2105-8-50 . ПМК 1808065 . ПМИД 17291334 .
- ^ Винце В., Сарваш Г., Фаркас Р., Мора Г., Цирик Дж. (ноябрь 2008 г.). «Корпус BioScope: биомедицинские тексты, аннотированные с учетом неопределенности, отрицания и их объема» . БМК Биоинформатика . 9 (Приложение 11): S9. дои : 10.1186/1471-2105-9-s11-s9 . ПМК 2586758 . ПМИД 19025695 .
- ^ Шварц А.С., Херст М.А. (2003). «Простой алгоритм определения определений сокращений в биомедицинском тексте». Тихоокеанский симпозиум по биокомпьютингу. Тихоокеанский симпозиум по биокомпьютерам : 451–62. ПМИД 12603049 .
- ^ Розарио Б., Херст, Массачусетс (6 октября 2005 г.). «Классификация многосторонних отношений» . Классификация многосторонних отношений: применение к белок-белковым взаимодействиям . Привет '05. Ассоциация компьютерной лингвистики. стр. 732–739. дои : 10.3115/1220575.1220667 . S2CID 902226 .
- ^ Дэвис А.П., Грондин С.Дж., Джонсон Р.Дж., Скиаки Д., МакМорран Р., Вигерс Дж. и др. (январь 2019 г.). «База данных сравнительной токсикогеномики: обновление 2019» . Исследования нуклеиновых кислот . 47 (Д1): Д948–Д954. дои : 10.1093/nar/gky868 . ПМК 6323936 . ПМИД 30247620 .
- ^ Верспур К., Коэн К.Б., Ланфранчи А., Уорнер С., Джонсон Х.Л., Редер С., Чой Дж.Д., Фанк С., Маленький Ю., Эккерт М., Сюэ Н., Баумгартнер В.А., Бада М., Палмер М., Хантер Л.Е. (август 2012 г.). «Корпус полнотекстовых журнальных статей — это надежный инструмент оценки, позволяющий выявить различия в производительности биомедицинских инструментов обработки естественного языка» . БМК Биоинформатика . 13 (1): 207. дои : 10.1186/1471-2105-13-207 . ПМЦ 3483229 . ПМИД 22901054 .
- ^ Ким Дж.Д., Охта Т., Татейси Ю., Цудзи Дж. (3 июля 2003 г.). «Корпус GENIA — семантически аннотированный корпус для биотекстового анализа» . Биоинформатика . 19 (Приложение 1): i180–i182. doi : 10.1093/биоинформатика/btg1023 . ПМИД 12855455 .
- ^ «Проект ГЕНИЯ» . www.geniaproject.org . Проверено 6 октября 2018 г.
- ^ Бахман Дж.А., Дьери Б.М., Зоргер П.К. (июнь 2018 г.). «FamPlex: ресурс для распознавания сущностей и разрешения взаимоотношений семейств и комплексов белков человека при биомедицинском анализе текста» . БМК Биоинформатика . 19 (1): 248. дои : 10.1186/s12859-018-2211-5 . ПМК 6022344 . ПМИД 29954318 .
- ^ Влахос А, Гасперин С (2006). «Начальная настройка и оценка распознавания названных объектов в биомедицинской области» . BioNLP '06 Материалы семинара по взаимосвязи обработки естественного языка и биологии: на пути к более глубокому анализу биологической литературы . БиоНЛП '06: 138–145. дои : 10.3115/1567619.1567652 .
- ^ Гасперин С., Караманис Н., Сил Р. (2007). «Аннотация анафорических отношений в полнотекстовых биомедицинских статьях с использованием схемы, соответствующей предметной области». Материалы DAARC 2007 : 19–24.
- ^ Медлок Б., Бриско Т. (2007). «Обучение со слабым учителем для классификации хеджирования в научной литературе» (PDF) . Материалы 45-го ежегодного собрания Ассоциации компьютерной лингвистики : 992–999.
- ^ Дин Дж., Берлеант Д., Неттлтон Д., Вуртеле Э. (2001). «Горное дело MEDLINE: Рефераты, предложения или фразы?» . В Альтман Р.Б., Данкер А.К., Хантер Л., Лодердейл К., Кляйн Т.Е. (ред.). Тихоокеанский симпозиум по биокомпьютингу, 2002 г. Всемирная научная. стр. 326–337 . CiteSeerX 10.1.1.385.6071 . дои : 10.1142/9789812799623_0031 . ISBN 9789810247775 . ПМИД 11928487 .
{{cite book}}
:|journal=
игнорируется ( помогите ) - ^ Ким Дж., Охта Т., Цуруока Ю., Татейси Ю., Коллиер Н. (2004). «Введение в задачу распознавания биологических объектов в JNLPBA» . Материалы международного совместного семинара по обработке естественного языка в биомедицине и ее приложениям - JNLPBA '04 : 70. doi : 10.3115/1567594.1567610 .
- ^ «ЛЛЛчеллендж» . genome.jouy.inra.fr . Проверено 6 октября 2018 г.
- ^ «Медицинские предметные рубрики — Домашняя страница» . www.nlm.nih.gov . Проверено 6 октября 2018 г.
- ^ Боденрейдер О (январь 2004 г.). «Единая система медицинского языка (UMLS): интеграция биомедицинской терминологии» . Исследования нуклеиновых кислот . 32 (Проблема с базой данных): D267–70. дои : 10.1093/nar/gkh061 . ПМК 308795 . ПМИД 14681409 .
- ^ «Метатезавр» . www.nlm.nih.gov . Проверено 7 октября 2018 г.
- ^ Джонсон А.Э., Поллард Т.Дж., Шен Л., Леман Л.В., Фенг М., Гассеми М., Муди Б., Соловиц П., Сели Л.А., Марк Р.Г. (май 2016 г.). «MIMIC-III, свободно доступная база данных интенсивной терапии» . Научные данные . 3 : 160035. Бибкод : 2016NatSD...360035J . дои : 10.1038/sdata.2016.35 . ПМЦ 4878278 . ПМИД 27219127 .
- ^ Савова Г.К., Чепмен В.В., Чжэн Дж., Кроули Р.С. (2011). «Анафорические отношения в клиническом повествовании: создание корпуса» . Журнал Американской ассоциации медицинской информатики . 18 (4): 459–65. дои : 10.1136/amiajnl-2011-000108 . ПМК 3128403 . ПМИД 21459927 .
- ^ Херш В., Бакли С., Леоне Т.Дж., Хикам Д. (1994). «OHSUMED: интерактивная поисковая оценка и новая большая коллекция тестов для исследований». Сигир '94 . Спрингер Лондон. стр. 192–201. дои : 10.1007/978-1-4471-2099-5_20 . ISBN 9783540198895 . S2CID 15094383 .
- ^ «Подмножество открытого доступа» . www.ncbi.nlm.nih.gov . Проверено 6 октября 2018 г.
- ^ Нельсон С.Дж., Цзэн К., Килборн Дж., Пауэлл Т., Мур Р. (2011). «Нормализованные названия клинических препаратов: RxNorm в 6 лет» . Журнал Американской ассоциации медицинской информатики . 18 (4): 441–8. дои : 10.1136/amiajnl-2011-000116 . ПМК 3128404 . ПМИД 21515544 .
- ^ Маккрей А.Т. (2003). «Онтология верхнего уровня для биомедицинской области» . Сравнительная и функциональная геномика . 4 (1): 80–4. дои : 10.1002/cfg.255 . ПМЦ 2447396 . ПМИД 18629109 .
- ^ «Семантическая сеть UMLS» . semanticnetwork.nlm.nih.gov . Проверено 7 октября 2018 г.
- ^ МакКрей А.Т., Шринивасан С., Браун AC (1994). «Лексические методы управления вариациями биомедицинской терминологии» . Слушания. Симпозиум по компьютерным приложениям в медицине : 235–9. ПМК 2247735 . ПМИД 7949926 .
- ^ «Специализированные инструменты НЛП» . lexsrv3.nlm.nih.gov . Проверено 7 октября 2018 г.
- ^ Химено-Йепес А.Дж., Макиннес Б.Т., Аронсон А.Р. (июнь 2011 г.). «Использование индексации MeSH в MEDLINE для создания набора данных для устранения неоднозначности смысла слов» . БМК Биоинформатика . 12 (1): 223. дои : 10.1186/1471-2105-12-223 . ПМК 3123611 . ПМИД 21635749 .
- ^ «Коллекции тестов на определение смысла слова (WSD)» . wsd.nlm.nih.gov . Проверено 7 октября 2018 г.
- ^ Франзен К., Эрикссон Г., Олссон Ф., Аскер Л., Лиден П., Костер Дж. (декабрь 2002 г.). «Названия белков и как их найти». Международный журнал медицинской информатики . 67 (1–3): 49–61. CiteSeerX 10.1.1.14.2183 . дои : 10.1016/s1386-5056(02)00052-7 . ПМИД 12460631 .
- ^ Миколов Т., Чен К., Коррадо Г., Дин Дж. (16 января 2013 г.). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].
- ^ «BioASQ публикует векторы слов с непрерывным пробелом, полученные путем применения Word2Vec к рефератам PubMed | bioasq.org» . bioasq.org . Проверено 7 ноября 2018 г.
- ^ «bio.nlplab.org» . bio.nlplab.org . Проверено 7 ноября 2018 г.
- ^ Асгари Э., Мофрад М.Р. (10 ноября 2015 г.). «Непрерывное распределенное представление биологических последовательностей для глубокой протеомики и геномики» . ПЛОС ОДИН . 10 (11): e0141287. arXiv : 1503.05140 . Бибкод : 2015PLoSO..1041287A . дои : 10.1371/journal.pone.0141287 . ПМЦ 4640716 . ПМИД 26555596 .
- ^ Банерджи И., Мадхаван С., Голдман Р.Э., Рубин Д.Л. (2017). «Интеллектуальное встраивание слов в текстовые отчеты о радиологии» . AMIA ... Материалы ежегодного симпозиума. Симпозиум АМИА . 2017 : 411–420. arXiv : 1711.06968 . Бибкод : 2017arXiv171106968B . ПМЦ 5977573 . ПМИД 29854105 .
- ↑ Перейти обратно: Перейти обратно: а б Бадал В.Д., Кундротас П.Ю., Ваксер И.А. (декабрь 2015 г.). «Интеллектуальный анализ текста для стыковки белков» . PLOS Вычислительная биология . 11 (12): e1004630. Бибкод : 2015PLSCB..11E4630B . дои : 10.1371/journal.pcbi.1004630 . ПМЦ 4674139 . ПМИД 26650466 .
- ^ Папаниколау Н., Павлопулос Г.А., Теодосиу Т., Илиопулос I (март 2015 г.). «Прогнозирование белок-белкового взаимодействия с использованием методов анализа текста». Методы . 74 : 47–53. дои : 10.1016/j.ymeth.2014.10.026 . ПМИД 25448298 .
- ^ Шклярчик Д., Моррис Дж. Х., Кук Х., Кун М., Уайдер С., Симонович М., Сантос А., Дончева Н. Т., Рот А., Борк П., Йенсен Л. Дж., фон Меринг С. (январь 2017 г.). «База данных STRING в 2017 году: сети белково-белковых ассоциаций с контролируемым качеством стали широко доступными» . Исследования нуклеиновых кислот . 45 (Д1): Д362–Д368. дои : 10.1093/nar/gkw937 . ПМК 5210637 . ПМИД 27924014 .
- ↑ Перейти обратно: Перейти обратно: а б Лием Д.А., Мурали С., Сигдел Д., Ши Ю, Ван Х, Шен Дж., Чой Х., Кофилд Дж.Х., Ван В., Пинг П., Хан Дж. (октябрь 2018 г.). «Фразовый анализ текстовых данных для анализа белков внеклеточного матрикса при сердечно-сосудистых заболеваниях» . Американский журнал физиологии. Физиология сердца и кровообращения . 315 (4): H910–H924. дои : 10.1152/ajpheart.00175.2018 . ПМК 6230912 . ПМИД 29775406 .
- ^ Ю С., Траншевант Л.С., Де Мур Б., Моро Ю. (январь 2010 г.). «Приоритизация генов и кластеризация с помощью многопрофильного анализа текста» . БМК Биоинформатика . 11 (1): 28. дои : 10.1186/1471-2105-11-28 . ПМК 3098068 . ПМИД 20074336 .
- ^ Ху, Чжан-Чжи; Мани, Индерджит; Эрмосо, Винсент; Лю, Хунфан; Ву, Кэти Х. (декабрь 2004 г.). «iProLINK: интегрированный белковый ресурс для поиска литературы» . Вычислительная биология и химия . 28 (5–6): 409–416. doi : 10.1016/j.compbiolchem.2004.09.010 . ПМИД 15556482 .
- ^ Канкар П., Адак С., Саркар А., Мурари К., Шарма Г. (11 апреля 2002 г.). Сумматор MedMeSH: интеллектуальный анализ текста для кластеров генов . В материалах Международной конференции SIAM 2002 года по интеллектуальному анализу данных. Общество промышленной и прикладной математики. стр. 548–565. CiteSeerX 10.1.1.215.6230 . дои : 10.1137/1.9781611972726.32 . ISBN 978-0-89871-517-0 .
- ^ Пюйсало С., Айрола А., Хеймонен Дж., Бьорне Дж., Гинтер Ф., Салакоски Т. (апрель 2008 г.). «Сравнительный анализ пяти корпусов белок-белкового взаимодействия» . БМК Биоинформатика . 9 (Приложение 3): S6. дои : 10.1186/1471-2105-9-s3-s6 . ПМК 2349296 . ПМИД 18426551 .
- ^ Ким С., Квон Д., Шин С.Ю., Уилбур В.Дж. (февраль 2012 г.). «PIE the search: поиск в литературе PubMed информации о взаимодействии белков» . Биоинформатика . 28 (4): 597–8. doi : 10.1093/биоинформатика/btr702 . ПМЦ 3278758 . ПМИД 22199390 .
- ^ Гилл Н., Сингх С., Асери Т.С. (июнь 2014 г.). «Приоритизация генов компьютерных заболеваний: оценка». Журнал вычислительной биологии . 21 (6): 456–465. дои : 10.1089/cmb.2013.0158 . ПМИД 24665902 .
- ^ Ю С., Ван Воорен С., Траншевант Л.С., Де Мур Б., Моро Ю. (август 2008 г.). «Сравнение словарей, представлений и алгоритмов ранжирования для определения приоритетов генов путем интеллектуального анализа текста» . Биоинформатика . 24 (16): i119–25. doi : 10.1093/биоинформатика/btn291 . ПМИД 18689812 .
- ^ Хульсегге И., Вулдерс Х., Смитс М., Шоккер Д., Цзян Л., Соренсен П. (май 2013 г.). «Приоритизация генов-кандидатов для репродуктивных качеств крупного рогатого скота на основе белок-белковых взаимодействий, экспрессии генов и анализа текста». Физиологическая геномика . 45 (10): 400–6. doi : 10.1152/физиологгеномика.00172.2012 . ПМИД 23572538 .
- ^ Тао Ф., Чжуан Х., Ю К.В., Ван К., Кэссиди Т., Каплан Л.Р., Восс Ч.Р., Хан Дж. (2016). «Многомерное фразовое суммирование в текстовых кубах» (PDF) . Данные IEEE, англ. Бык . 39 (3): 74–84.
- ^ Томас П., Старлингер Дж., Вовинкель А., Арцт С., Лезер У. (июль 2012 г.). «GeneView: комплексная семантическая поисковая система для PubMed» . Исследования нуклеиновых кислот . 40 (проблема с веб-сервером): W585–91. дои : 10.1093/нар/gks563 . ПМЦ 3394277 . ПМИД 22693219 .
- ^ Браун П., Чжоу Ю (сентябрь 2017 г.). «Биомедицинская литература: требуются тестировщики для инструмента поиска статей» . Природа . 549 (7670): 31. Бибкод : 2017Natur.549...31B . дои : 10.1038/549031c . ПМИД 28880292 .
- ^ Оно-Мачадо Л., Сансоне С.А., Альтер Дж., Форе И, Грете Дж., Сюй Х., Гонсалес-Бельтран А., Рокка-Серра П., Гурурадж А.Е., Белл Е., Сойсал Е., Зонг Н., Ким Х.Э. (май 2017 г.). «Поиск полезных данных в нескольких репозиториях биомедицинских данных с помощью DataMed» . Природная генетика . 49 (6): 816–819. дои : 10.1038/ng.3864 . ПМК 6460922 . ПМИД 28546571 .
- ^ Перес-Ривероль И., Бай М., да Вейга Лепрево Ф., Сквиззато С., Парк Ю.М., Хауг К. и др. (май 2017 г.). «Обнаружение и связывание общедоступных наборов данных OMICS с использованием индекса Omics Discovery Index» . Природная биотехнология . 35 (5): 406–409. дои : 10.1038/nbt.3790 . ПМЦ 5831141 . ПМИД 28486464 .
- ^ Иде, Северная Каролина, Лоан РФ, Демнер-Фушман Д (01 мая 2007 г.). «Эсси: концептуальная поисковая система для структурированного биомедицинского текста» . Журнал Американской ассоциации медицинской информатики . 14 (3): 253–63. дои : 10.1197/jamia.m2233 . ПМК 2244877 . ПМИД 17329729 .
- ^ Ли Х.Дж., Данг Т.С., Ли Х., Пак Дж.К. (июль 2014 г.). «OncoSearch: система поиска генов рака с литературными данными» . Исследования нуклеиновых кислот . 42 (проблема с веб-сервером): W416–21. дои : 10.1093/nar/gku368 . ПМК 4086113 . ПМИД 24813447 .
- ^ Йенссен Т.К., Лагрейд А., Коморовски Дж., Ховиг Э. (май 2001 г.). «Литературная сеть человеческих генов для высокопроизводительного анализа экспрессии генов». Природная генетика . 28 (1): 21–8. дои : 10.1038/ng0501-21 . ПМИД 11326270 . S2CID 8889284 .
- ^ Масис Д.Р. (май 2001 г.). «Связывание данных микрочипов с литературой». Природная генетика . 28 (1): 9–10. дои : 10.1038/ng0501-9 . ПМИД 11326264 . S2CID 52848745 .
- ^ Домс А., Шредер М. (июль 2005 г.). «GoPubMed: изучение PubMed с помощью онтологии генов» . Исследования нуклеиновых кислот . 33 (проблема с веб-сервером): W783–6. дои : 10.1093/nar/gki470 . ПМК 1160231 . ПМИД 15980585 .
- ^ Турчин А., Флорес Буйлес Л.Ф. (май 2021 г.). «Использование обработки естественного языка для измерения и улучшения качества лечения диабета: систематический обзор» . Журнал науки и технологий о диабете . 15 (3): 553–560. дои : 10.1177/19322968211000831 . ПМК 8120048 . ПМИД 33736486 .
- ^ Ван Ю, Ван Л, Растегар-Моджарад М, Мун С, Шен Ф, Афзал Н и др. (январь 2018 г.). «Приложения для извлечения клинической информации: обзор литературы» . Журнал биомедицинской информатики . 77 : 34–49. дои : 10.1016/j.jbi.2017.11.011 . ПМК 5771858 . ПМИД 29162496 .
- ^ Фридман С (1997). «На пути к комплексной системе обработки медицинского языка: методы и проблемы» . Слушания : 595–599. ПМК 2233560 . ПМИД 9357695 .
- ^ Савова Г.К., Масанц Дж.Дж., Огрен П.В., Чжэн Дж., Зон С., Киппер-Шулер К.К., Чуте К.Г. (2010). «Система клинического анализа текста и извлечения знаний Мэйо (cTAKES): архитектура, оценка компонентов и приложения» . Журнал Американской ассоциации медицинской информатики . 17 (5): 507–513. дои : 10.1136/jamia.2009.001560 . ПМЦ 2995668 . ПМИД 20819853 .
- ^ Сойсал Э., Ван Дж., Цзян М., Ву Ю., Пахомов С., Лю Х., Сюй Х. (март 2018 г.). «CLAMP — набор инструментов для эффективного создания индивидуальных клинических конвейеров обработки естественного языка» . Журнал Американской ассоциации медицинской информатики . 25 (3): 331–336. дои : 10.1093/Джамиа/ocx132 . ПМЦ 7378877 . ПМИД 29186491 .
- ^ Фрис Дж., Ву С., Ратнер А., Ре К. (20 апреля 2017 г.). «SwellShark: генеративная модель для биомедицинского распознавания именованных объектов без маркированных данных». arXiv : 1704.06360 [ cs.CL ].
- ^ Йе Зи, Тафти А.П., Хэ Кюй, Ван К., Хэ ММ (29 сентября 2016 г.). «SparkText: биомедицинский анализ текста на основе больших данных» . ПЛОС ОДИН . 11 (9): e0162721. Бибкод : 2016PLoSO..1162721Y . дои : 10.1371/journal.pone.0162721 . ПМК 5042555 . ПМИД 27685652 .
- ^ Цейтлин Э., Митчелл К., Леговски Э., Корриган Дж., Чаван Г., Джейкобсон Р.С. (январь 2016 г.). «NOBLE — гибкое распознавание концепций для крупномасштабной биомедицинской обработки естественного языка» . БМК Биоинформатика . 17 (1): 32. дои : 10.1186/s12859-015-0871-y . ПМЦ 4712516 . ПМИД 26763894 .
- ^ «БиоНЛП — Антология ACL» . aclanthology.coli.uni-saarland.de . Проверено 17 октября 2018 г.
- ^ «Известия ISMB» . www.iscb.org . Проверено 18 октября 2018 г.
- ^ https://ieeexplore.ieee.org/xpl/conhome/1001586/all-proceedings
- ^ "dblp: CIKM" . dblp.uni-trier.de . Проверено 17 октября 2018 г.
- ^ «Известия ПСБ» . psb.stanford.edu . Проверено 18 октября 2018 г.
- ^ «dblp: Практические применения вычислительной биологии и биоинформатики» . dblp.org . Проверено 17 октября 2018 г.
- ^ «Материалы конференции по поиску текста (TREC)» . trec.nist.gov . Проверено 17 октября 2018 г.
Дальнейшее чтение [ править ]
- Краллингер М., Валенсия А (2005). «Службы интеллектуального анализа текста и информационного поиска для молекулярной биологии» . Геномная биология . 6 (7): 224. doi : 10.1186/gb-2005-6-7-224 . ПМК 1175978 . ПМИД 15998455 .
- Хоффманн Р., Краллингер М., Андрес Э., Тамамес Дж., Блашке К., Валенсия А. (май 2005 г.). «Интеллектуальный анализ текста для метаболических путей, сигнальных каскадов и белковых сетей». СТКЭ науки . 2005 (283): пе21. дои : 10.1126/stke.2832005pe21 . ПМИД 15886388 . S2CID 15301069 .
- Краллингер М., Эрхардт Р.А., Валенсия А (март 2005 г.). «Подходы к анализу текста в молекулярной биологии и биомедицине». Открытие наркотиков сегодня . 10 (6): 439–45. дои : 10.1016/S1359-6446(05)03376-3 . ПМИД 15808823 .
- Публикации по биомедицинскому анализу литературы (BLIMP). Архивировано 29 августа 2004 г. в Wayback Machine : всеобъемлющий и регулярно обновляемый указатель публикаций по (био)медицинскому анализу текстов.