Закрепление текста

Text Nailing (TN) — это . метод полуавтоматического извлечения структурированной информации из неструктурированных документов Этот метод позволяет человеку в интерактивном режиме просматривать небольшие фрагменты текста из большой коллекции документов, чтобы идентифицировать потенциально информативные выражения. Идентифицированные выражения можно затем использовать для улучшения вычислительных методов, основанных на тексте (например, регулярное выражение ), а также методов расширенной обработки естественного языка (NLP). TN сочетает в себе две концепции: 1) взаимодействие человека с повествовательным текстом для выявления широко распространенных неотрицательных выражений и 2) преобразование всех выражений и примечаний в неотрицательные представления, состоящие только из алфавита, для создания однородных представлений. ^[1]^[2]

В традиционных подходах машинного обучения к классификации текста эксперт-человек должен маркировать фразы или целые заметки, а затем алгоритм контролируемого обучения пытается обобщить ассоциации и применить их к новым данным. Напротив, использование неотрицательных отдельных выражений устраняет необходимость в дополнительном вычислительном методе для достижения обобщаемости. ^[3]^[4]^[5]

История

TN был разработан в Массачусетской больнице общего профиля и протестирован в нескольких сценариях, включая определение статуса курения, семейного анамнеза ишемической болезни сердца, выявление пациентов с нарушениями сна, ^[6] повысить точность оценки риска по Фрамингемской шкале для пациентов с неалкогольной жировой болезнью печени и классифицировать несоблюдение режима лечения как диабет 2 типа. комплексный обзор извлечения информации из текстовых документов в электронной медицинской карте . Доступен ^[7]^[8]

Важность использования неинвертированных выражений для повышения точности текстовых классификаторов была подчеркнута в письме, опубликованном в журнале Communications of the ACM в октябре 2018 года. ^[9]

Исходный код

Пример кода для извлечения статуса курения из повествовательных заметок с помощью «прибитых выражений» доступен на GitHub . ^[10]

TN как прогрессивный киберчеловеческий интеллект

В июле 2018 года исследователи из Технологического института Вирджинии и Университета Иллинойса в Урбана-Шампейн назвали TN примером прогрессивного киберчеловеческого интеллекта (PCHI). ^[11]

Критика машинного обучения в здравоохранении

Chen & Asch 2017 написали: «Поскольку машинное обучение находится на пике завышенных ожиданий, мы можем смягчить последующий крах и превратить его в «глубину разочарования», способствуя более глубокому осознанию возможностей и ограничений технологии». ^[12]

В письме «За пределами грубой силы», опубликованном в журнале Communications of the ACM , подчеркивается, что подход «грубой силы» может работать лучше, чем традиционные алгоритмы машинного обучения при применении к тексту. В письме говорилось: «...алгоритмы машинного обучения при применении к тексту основаны на предположении, что любой язык включает в себя бесконечное количество возможных выражений. Напротив, при различных медицинских состояниях мы наблюдали, что врачи, как правило, используют одни и те же выражения. выражения для описания состояния пациентов». ^[13]

В своей точке зрения, опубликованной в июне 2018 года, относительно медленного внедрения результатов, основанных на данных в медицине, Ури Картун, соавтор Text Nailing, заявляет, что «...Text Nailing вызвал скептицизм у рецензентов журналов по медицинской информатике, которые утверждали, что он основан на простых трюки для упрощения текста и в значительной степени опирается на человеческие аннотации, на первый взгляд TN действительно может показаться игрой света, но на самом деле это довольно сложный метод, который в конце концов привлек внимание более предприимчивых рецензентов и редакторов, которые в конечном итоге приняли его. это для публикации». ^[14]

Критика

Процесс, выполняемый человеком, — это способ создания функций с использованием экспертов в предметной области. Использование экспертов в предметной области для разработки функций — не новая концепция. Однако конкретные интерфейсы и методы, которые помогают экспертам в предметной области создавать функции, скорее всего, являются новыми.

В этом случае функции, создаваемые экспертами, эквивалентны регулярным выражениям. Удаление неалфавитных символов и сопоставление "smokesppd" эквивалентно регулярному выражению /smokes[^a-zA-Z]*ppd/. Использование регулярных выражений в качестве функций классификации текста не является чем-то новым.

Учитывая эти особенности, классификатор представляет собой порог, устанавливаемый авторами вручную и определяемый производительностью на наборе документов. Это классификатор, просто параметры классификатора, в данном случае порог, задаются вручную. Учитывая одни и те же функции и документы, практически любой алгоритм машинного обучения сможет найти тот же порог или (что более вероятно) лучший.

Авторы отмечают, что использование машин опорных векторов (SVM) и сотен документов дает меньшую производительность, но не уточняют, на каких функциях или документах SVM обучалась/тестировалась. Для справедливого сравнения будут использоваться те же функции и наборы документов, что и при ручном классификаторе порогов.

Ссылки

^ Картун, Ури (2017). «Закрепление текста». Взаимодействия . 24 (6): 44–9. дои : 10.1145/3139488 . S2CID 29010232 .
^ Барбоза, Симона; Коктон, Гилберт (2017). «Избежание предвзятости повестки дня с помощью продуманного дизайна». Взаимодействия . 24 (6): 5. дои : 10.1145/3151556 . S2CID 657561 .
^ Бим, Эндрю Л; Картун, Ури; Пай, Дженнифер К; Чаттерджи, Арнауб К; Фицджеральд, Тимоти П.; Шоу, Стэнли Ю; Кохане, Исаак С. (2017). «Прогнозирующее моделирование динамики поведения врача и пациента, влияющей на назначение снотворных препаратов и принятие клинических решений» . Научные отчеты . 7 : 42282. Бибкод : 2017NatSR...742282B . дои : 10.1038/srep42282 . ПМК 5299453 . ПМИД 28181568 .
^ Саймон, Трейси Дж; Картун, Ури; Чжэн, Хуэй; Чан, Эндрю Т; Чунг, Раймонд Т; Шоу, Стэнли; Кори, Кэтлин Э (2017). «Модель терминальной стадии заболевания печени Na Score предсказывает возникновение серьезных сердечно-сосудистых событий у пациентов с неалкогольной жировой болезнью печени» . Гепатологические сообщения . 1 (5): 429–438. дои : 10.1002/hep4.1051 . ПМЦ 5659323 . ПМИД 29085919 .
^ Кори, Кэтлин Э; Картун, Ури; Чжэн, Хуэй; Чунг, Раймонд Т; Шоу, Стэнли Ю. (2016). «Использование базы данных электронных медицинских карт для выявления нетрадиционных сердечно-сосудистых факторов риска при неалкогольной жировой болезни печени» . Американский журнал гастроэнтерологии . 111 (5): 671–6. дои : 10.1038/ajg.2016.44 . ПМК 4864030 . ПМИД 26925881 .
^ Картун, Ури; и др. (2018). «Разработка алгоритма выявления пациентов с подтвержденной врачом бессонницей» . Научные отчеты . 8 (1): 7862. Бибкод : 2018НатСР...8.7862К . дои : 10.1038/s41598-018-25312-z . ПМЦ 5959894 . ПМИД 29777125 .
^ Мейстре, С.М.; Савова, Г.К.; Киппер-Шулер, К.С.; Препятствие, Дж. Ф. (2008). «Извлечение информации из текстовых документов в электронную медицинскую карту: обзор последних исследований» . Ежегодник медицинской информатики : 128–44. ПМИД 18660887 .
^ Ван, Яньшань; Ван, Ливэй; Растегар-Моджарад, Маджид; Луна, Сунгрим; Шен, Фейхен; Афзал, Навид; Лю, Сидзя; Цзэн, Юйцюнь; Мехраби, Саид; Сон, Сонхван; Лю, Хунфан (2018). «Приложения для извлечения клинической информации: обзор литературы» . Журнал биомедицинской информатики . 77 : 34–49. дои : 10.1016/j.jbi.2017.11.011 . ПМК 5771858 . ПМИД 29162496 .
^ Сотрудники CACM (2018). «Более точный анализ текста для лучших результатов лечения пациентов». Коммуникации АКМ . 61 (10): 6–7. дои : 10.1145/3273019 . S2CID 52901757 .
^ «GitHub — картун/текст-прикрепление» . Гитхаб . 07.01.2018.
^ Рикакис, Танассис; Келлихер, Эслинг; Хуан, Цзя-Бин; Сундарам, Хари (2018). «Прогрессивный киберчеловеческий интеллект на благо общества» . Взаимодействия . 25 (4): 52–56. дои : 10.1145/3231559 . S2CID 49563432 .
^ Чен, Джонатан Х; Аш, Стивен М (2017). «Машинное обучение и прогнозирование в медицине — за пределами завышенных ожиданий» . Медицинский журнал Новой Англии . 376 (26): 2507–9. дои : 10.1056/NEJMp1702071 . ПМЦ 5953825 . ПМИД 28657867 .
^ Сотрудники CACM (2017). «За пределами грубой силы». Коммуникации АКМ . 60 (10): 8–9. дои : 10.1145/3135241 .
^ Картун, Ури (2018). «На пути к ускоренному внедрению результатов, основанных на данных, в медицине». Медицина, здравоохранение и философия . 22 (1): 153–157. дои : 10.1007/s11019-018-9845-y . ПМИД 29882052 . S2CID 46973857 .

[1] Картун, Ури (2017). «Закрепление текста». Взаимодействия . 24 (6): 44–9. дои : 10.1145/3139488 . S2CID 29010232 .

[2] Барбоза, Симона; Коктон, Гилберт (2017). «Избежание предвзятости повестки дня с помощью продуманного дизайна». Взаимодействия . 24 (6): 5. дои : 10.1145/3151556 . S2CID 657561 .

[pmid28181568-3] Бим, Эндрю Л; Картун, Ури; Пай, Дженнифер К; Чаттерджи, Арнауб К; Фицджеральд, Тимоти П.; Шоу, Стэнли Ю; Кохане, Исаак С. (2017). «Прогнозирующее моделирование динамики поведения врача и пациента, влияющей на назначение снотворных препаратов и принятие клинических решений» . Научные отчеты . 7 : 42282. Бибкод : 2017NatSR...742282B . дои : 10.1038/srep42282 . ПМК 5299453 . ПМИД 28181568 .

[pmid29085919-4] Саймон, Трейси Дж; Картун, Ури; Чжэн, Хуэй; Чан, Эндрю Т; Чунг, Раймонд Т; Шоу, Стэнли; Кори, Кэтлин Э (2017). «Модель терминальной стадии заболевания печени Na Score предсказывает возникновение серьезных сердечно-сосудистых событий у пациентов с неалкогольной жировой болезнью печени» . Гепатологические сообщения . 1 (5): 429–438. дои : 10.1002/hep4.1051 . ПМЦ 5659323 . ПМИД 29085919 .

[pmid26925881-5] Кори, Кэтлин Э; Картун, Ури; Чжэн, Хуэй; Чунг, Раймонд Т; Шоу, Стэнли Ю. (2016). «Использование базы данных электронных медицинских карт для выявления нетрадиционных сердечно-сосудистых факторов риска при неалкогольной жировой болезни печени» . Американский журнал гастроэнтерологии . 111 (5): 671–6. дои : 10.1038/ajg.2016.44 . ПМК 4864030 . ПМИД 26925881 .

[6] Картун, Ури; и др. (2018). «Разработка алгоритма выявления пациентов с подтвержденной врачом бессонницей» . Научные отчеты . 8 (1): 7862. Бибкод : 2018НатСР...8.7862К . дои : 10.1038/s41598-018-25312-z . ПМЦ 5959894 . ПМИД 29777125 .

[7] Мейстре, С.М.; Савова, Г.К.; Киппер-Шулер, К.С.; Препятствие, Дж. Ф. (2008). «Извлечение информации из текстовых документов в электронную медицинскую карту: обзор последних исследований» . Ежегодник медицинской информатики : 128–44. ПМИД 18660887 .

[pmid29162496-8] Ван, Яньшань; Ван, Ливэй; Растегар-Моджарад, Маджид; Луна, Сунгрим; Шен, Фейхен; Афзал, Навид; Лю, Сидзя; Цзэн, Юйцюнь; Мехраби, Саид; Сон, Сонхван; Лю, Хунфан (2018). «Приложения для извлечения клинической информации: обзор литературы» . Журнал биомедицинской информатики . 77 : 34–49. дои : 10.1016/j.jbi.2017.11.011 . ПМК 5771858 . ПМИД 29162496 .

[9] Сотрудники CACM (2018). «Более точный анализ текста для лучших результатов лечения пациентов». Коммуникации АКМ . 61 (10): 6–7. дои : 10.1145/3273019 . S2CID 52901757 .

[10] «GitHub — картун/текст-прикрепление» . Гитхаб . 07.01.2018.

[11] Рикакис, Танассис; Келлихер, Эслинг; Хуан, Цзя-Бин; Сундарам, Хари (2018). «Прогрессивный киберчеловеческий интеллект на благо общества» . Взаимодействия . 25 (4): 52–56. дои : 10.1145/3231559 . S2CID 49563432 .

[pmid28657867-12] Чен, Джонатан Х; Аш, Стивен М (2017). «Машинное обучение и прогнозирование в медицине — за пределами завышенных ожиданий» . Медицинский журнал Новой Англии . 376 (26): 2507–9. дои : 10.1056/NEJMp1702071 . ПМЦ 5953825 . ПМИД 28657867 .

[13] Сотрудники CACM (2017). «За пределами грубой силы». Коммуникации АКМ . 60 (10): 8–9. дои : 10.1145/3135241 .

[14] Картун, Ури (2018). «На пути к ускоренному внедрению результатов, основанных на данных, в медицине». Медицина, здравоохранение и философия . 22 (1): 153–157. дои : 10.1007/s11019-018-9845-y . ПМИД 29882052 . S2CID 46973857 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]