Обработка документов

Обработка документов — это область исследований и совокупность производственных процессов, направленных на перевод аналогового документа в цифровой. Обработка документов направлена не просто на фотографирование или сканирование документа для получения цифрового изображения , но и на то, чтобы сделать его понятным в цифровом виде. Это включает в себя извлечение структуры документа или макета , а затем содержимого, которое может принимать форму текста или изображений. В этом процессе могут использоваться традиционные алгоритмы компьютерного зрения , сверточные нейронные сети или ручной труд. Рассматриваемые проблемы связаны с семантической сегментацией , обнаружением объектов , оптическим распознаванием символов (OCR) , распознаванием рукописного текста (HTR) и, в более широком смысле, транскрипцией , автоматической или нет. ^[1] Этот термин также может включать этап оцифровки документа с помощью сканера и этап интерпретации документа, например, с использованием обработки естественного языка (NLP) или классификации изображений технологий . Он применяется во многих промышленных и научных областях для оптимизации административных процессов, обработки почты и оцифровки аналоговых архивов и исторических документов.

Фон

Первоначально обработка документов была и до сих пор в некоторой степени является своего рода производственной работой, связанной с обработкой документов , таких как письма и посылки, с целью сортировки, извлечения или массового извлечения данных. Эта работа может выполняться собственными силами или посредством аутсорсинга бизнес-процессов . ^[2]^[3] Обработка документов действительно может включать в себя какой-то внешний ручной труд, например, механический турок .

В качестве примера ручной обработки документов, сравнительно недавно, в 2007 году, ^[4] Обработка документов для «миллионов заявлений на получение визы и гражданства» заключалась в использовании «примерно 1000 контрактных работников», которые «управляли почтовым отделением и вводом данных ».

Хотя обработка документов включала ввод данных с клавиатуры задолго до использования компьютерной мыши или компьютерного сканера , в статье 1990 года в The New York Times о том, что она назвала « безбумажным офисом », говорилось, что «обработка документов начинается со сканера». ^[5] В этом контексте бывший вице-президент Xerox Пол Страссман высказал критическое мнение, заявив, что компьютеры скорее увеличивают, чем уменьшают объем бумаги в офисе. ^[5] Говорили, что техническая и эксплуатационная документация на самолет весит «больше, чем сам самолет». ^{[ нужна ссылка ]}.

Автоматическая обработка документов

По мере развития техники обработка документов перешла на обработку «компонентов документа... как объектов базы данных». ^[6]

Технология, называемая автоматической обработкой документов или иногда интеллектуальной обработкой документов (ID), возникла как особая форма интеллектуальной автоматизации процессов (IPA), сочетающая искусственный интеллект, такой как машинное обучение (ML), обработка естественного языка (NLP) или интеллектуальное распознавание символов (ICE ). ) для извлечения данных из документов нескольких типов. ^[7]^[8] Достижения в области автоматической обработки документов, также называемые интеллектуальной обработкой документов, улучшают возможности обработки неструктурированных данных с меньшим количеством исключений и с большей скоростью. ^[9]

Приложения

Автоматическая обработка документов применяется к целому ряду документов, как структурированных, так и нет. Например, в мире бизнеса и финансов технологии могут использоваться для обработки бумажных счетов-фактур, форм, заказов на поставку, контрактов и валютных счетов. ^[10] Финансовые учреждения используют интеллектуальную обработку документов для обработки больших объемов форм, таких как нормативные формы или кредитные документы. ID использует искусственный интеллект для извлечения и классификации данных из документов, заменяя ручной ввод данных. ^[11]

В медицине были разработаны методы обработки документов для облегчения наблюдения за пациентами и оптимизации административных процедур, в частности, путем оцифровки отчетов медицинских или лабораторных анализов. Целью также является стандартизация медицинских баз данных. ^[12] Алгоритмы также используются непосредственно для оказания помощи врачам в медицинской диагностике, например, путем анализа магнитно-резонансных изображений . ^[13]^[14] или микроскопические изображения. ^[15]

Обработка документов также широко используется в гуманитарных и цифровых гуманитарных науках для извлечения больших исторических данных из архивов или коллекций наследия. Конкретные подходы были разработаны для различных источников, включая текстовые документы, такие как газетные архивы, ^[16] но и изображения, ^[17] или карты. ^[18]^[19]

Технологии

Если начиная с 1980-х годов традиционные алгоритмы компьютерного зрения широко использовались для решения задач обработки документов, ^[20]^[21] в 2010-х годах они были постепенно заменены технологиями нейронных сетей. ^[22] Однако в некоторых секторах традиционные технологии компьютерного зрения все еще используются, иногда в сочетании с нейронными сетями.

Многие технологии поддерживают развитие обработки документов, в частности оптическое распознавание символов (OCR) и распознавание рукописного текста (HTR), которые позволяют автоматически расшифровывать текст. Сегменты текста как таковые идентифицируются с помощью алгоритмов обнаружения экземпляров или объектов , которые иногда также можно использовать для определения структуры документа. Для решения последней проблемы иногда также используются алгоритмы семантической сегментации .

Эти технологии часто составляют основу обработки документов. Однако другие алгоритмы могут вмешаться до или после этих процессов. Действительно, технологии оцифровки документов также задействованы, будь то в форме классического или трехмерного сканирования. ^[23] При оцифровке 3D-документов, в частности, можно использовать производные фотограмметрии . Иногда необходимо разработать специальные 2D-сканеры, адаптированные к размеру документов или из соображений эргономики сканирования. ^[17] Обработка документов также зависит от цифрового кодирования документов в подходящем формате файла . Кроме того, обработка гетерогенных баз данных может опираться на классификации изображений технологии .

На другом конце цепочки находятся различные алгоритмы завершения изображения, экстраполяции или очистки данных. Для текстовых документов при интерпретации могут использоваться технологии обработки естественного языка (NLP).

См. также

Ссылки

^ Лен Эспри; Майкл Миддлтон (2003). Интегративное управление документами и контентом: стратегии использования знаний предприятия . Идея Групп Инк (IGI). ISBN 9781591400554 .
^ Винод В. Сопл (25 мая 2009 г.). Аутсорсинг бизнес-процессов: экспертная цепочка поставок . PHI Learning Pvt. ООО ISBN 978-8120338159 .
^ Марк Кобаяши-Хиллари (5 декабря 2005 г.). Аутсорсинг в Индию: оффшорное преимущество . Springer Science & Business Media. ISBN 9783540247944 .
^ Джулия Престон (2 декабря 2007 г.). «Иммиграционный подрядчик снижает заработную плату» . Нью-Йорк Таймс .
^ Перейти обратно: ^а ^б Лоуренс М. Фишер (7 июля 1990 г.). «Бумага, однажды списанная, сохраняет место в офисе» . Нью-Йорк Таймс .
^ Эл Янг; Дэйл Вулштейн; Джей Джонсон (февраль 1996 г.). «Неизвестное название». Журнал «Объект» . п. 51.
^ «Интеллектуальная обработка документов» (PDF) . Кафедра компьютерных наук – Университет Бари . 7 апреля 2005 г. Проверено 8 сентября 2018 г.
^ Флориана Эспозито , Стефано Ферилли, Тереза М.А. Базиле, Никола Ди Мауро (01 апреля 2005 г.). «Интеллектуальная обработка документов» в сборнике трудов. Восьмая международная конференция по анализу и распознаванию документов, Сеул, Южная Корея, 2005 г., стр. 1100–1104. дои: 10.1109/ICDAR.2005.144 . дои : 10.1109/ICDAR.2005.144 . S2CID 17302169 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
^ «Интеллектуальная обработка документов (IDP)» . keymarkinc.com . Проверено 12 июля 2024 г.
^ Активен в США US7873576B2 , Джон Э. Джонс; Уильям Дж. Джонс и Фрэнк М. Чалтис, «Система обработки финансовых документов», опубликовано 18 января 2011 г., выпущено 18 января 2011 г.
^ Бриджуотер, Адриан. «Appian добавляет Google Cloud Intelligence в комплекс автоматизации с низким уровнем кода» . Форбс . Проверено 21 апреля 2021 г.
^ Адамо, Франческо; Аттивиссимо, Филиппо; Ди Нисио, Аттилио; Спадавеккья, Маурицио (февраль 2015 г.). «Автоматическая система обработки документов для извлечения медицинских данных» . Измерение . 61 : 88–99. Бибкод : 2015Измерение...61...88А . дои : 10.1016/j.measurement.2014.10.032 . Проверено 31 января 2021 г.
^ Чангван, Ким; Сон Иль, Ли; Вон Джун, Чо (сентябрь 2020 г.). «Объемная оценка экструзии при разрыве заднего корня медиального мениска посредством полуавтоматической сегментации на магнитно-резонансных изображениях с силой 3 Тесла» . Ортопедия и травматология: хирургия и исследования . 101 (5): 963–968. дои : 10.1016/j.rcot.2020.06.003 . S2CID 225215597 . Проверено 31 января 2021 г.
^ Деспотович, Ивана; Барт, Гуссенс; Уилфрид, Philips (1 марта 2015 г.). «МРТ-сегментация человеческого мозга: проблемы, методы и приложения» . Методы вычислительного интеллекта в медицине . 2015 : 963–968. дои : 10.1155/2015/450341 . ПМК 4402572 . ПМИД 25945121 .
^ Путцуа, Лоренцо; Каоччи, Джованни; Ди Рубертоа, Сесилия (ноябрь 2014 г.). «Классификация лейкоцитов для выявления лейкемии с использованием методов обработки изображений» . Искусственный интеллект в медицине . 63 (3): 179–191. дои : 10.1016/j.artmed.2014.09.002 . hdl : 11584/94592 . ПМИД 25241903 .
^ Эрманн, Мод; Романелло, Маттео; Клематид, Саймон; Шрёбель, Филипп; Барман, Рафаэль (2020). «Языковые ресурсы для исторических газет: коллекция Impresso» . Материалы 12-й конференции по языковым ресурсам и оценке . Марсель, Франция. стр. 958–968.
^ Перейти обратно: ^а ^б Сеген, Бенуа; Костинер, Лисандра; ди Ленардо, Изабелла; Каплан, Фредерик (1 апреля 2018 г.). «Новые методы оцифровки художественно-исторических фотоархивов на примере Фонда Чини в Венеции» . Архивирование итоговой программы и материалов 2018 года . Общество визуализации, науки и технологий. стр. 1–5. дои : 10.2352/issn.2168-3204.2018.1.0.2 .
^ Арес Оливейра, София; ди Ленардо, Изабелла; Туренц, Бастьен; Каплан, Фредерик (11 июля 2019 г.). Подход глубокого обучения к кадастровым вычислениям . Конференция по цифровым гуманитарным наукам. Утрехт, Нидерланды.
^ Петитпьер, Реми (июль 2020 г.). Нейронные сети для семантической сегментации исторических карт города: межкультурные характеристики и влияние образного разнообразия (магистр). arXiv : 2101.12478 . дои : 10.13140/RG.2.2.10973.64484 .
^ Фудзисава, Х.; Накано, Ю.; Курино, К. (июль 1992 г.). «Методы сегментации для распознавания символов: от сегментации к анализу структуры документа» . Труды IEEE . 80 (7): 1079–1092. дои : 10.1109/5.156471 . Проверено 3 февраля 2021 г.
^ Тан, Юань Ю.; Ли, Сон-Ван; Суен, Чинг Ю. (1996). «Автоматическая обработка документов: опрос» . Распознавание образов . 29 (12): 1931–1952. Бибкод : 1996PatRe..29.1931T . дои : 10.1016/S0031-3203(96)00044-1 . Проверено 3 февраля 2021 г.
^ Арес Оливейра, София; Сеген, Бенуа; Каплан, Фредерик (5–8 августа 2018 г.). dhSegment: универсальный подход глубокого обучения для сегментации документов . 2018 16-я Международная конференция «Границы в распознавании рукописного текста» (ICFHR). Ниагарский водопад, штат Нью-Йорк, США: IEEE. arXiv : 1804.10371 . дои : 10.1109/ICFHR-2018.2018.00011 .
^ «Революционная технология сканирования для искусства» . Артмын . Проверено 3 февраля 2021 г.

[1] Лен Эспри; Майкл Миддлтон (2003). Интегративное управление документами и контентом: стратегии использования знаний предприятия . Идея Групп Инк (IGI). ISBN 9781591400554 .

[2] Винод В. Сопл (25 мая 2009 г.). Аутсорсинг бизнес-процессов: экспертная цепочка поставок . PHI Learning Pvt. ООО ISBN 978-8120338159 .

[3] Марк Кобаяши-Хиллари (5 декабря 2005 г.). Аутсорсинг в Индию: оффшорное преимущество . Springer Science & Business Media. ISBN 9783540247944 .

[VisaDox-4] Джулия Престон (2 декабря 2007 г.). «Иммиграционный подрядчик снижает заработную плату» . Нью-Йорк Таймс .

[Paper.NYT-5] Перейти обратно: ^а ^б Лоуренс М. Фишер (7 июля 1990 г.). «Бумага, однажды списанная, сохраняет место в офисе» . Нью-Йорк Таймс .

[6] Эл Янг; Дэйл Вулштейн; Джей Джонсон (февраль 1996 г.). «Неизвестное название». Журнал «Объект» . п. 51.

[7] «Интеллектуальная обработка документов» (PDF) . Кафедра компьютерных наук – Университет Бари . 7 апреля 2005 г. Проверено 8 сентября 2018 г.

[8] Флориана Эспозито , Стефано Ферилли, Тереза М.А. Базиле, Никола Ди Мауро (01 апреля 2005 г.). «Интеллектуальная обработка документов» в сборнике трудов. Восьмая международная конференция по анализу и распознаванию документов, Сеул, Южная Корея, 2005 г., стр. 1100–1104. дои: 10.1109/ICDAR.2005.144 . дои : 10.1109/ICDAR.2005.144 . S2CID 17302169 . {{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )

[9] «Интеллектуальная обработка документов (IDP)» . keymarkinc.com . Проверено 12 июля 2024 г.

[10] Активен в США US7873576B2 , Джон Э. Джонс; Уильям Дж. Джонс и Фрэнк М. Чалтис, «Система обработки финансовых документов», опубликовано 18 января 2011 г., выпущено 18 января 2011 г.

[11] Бриджуотер, Адриан. «Appian добавляет Google Cloud Intelligence в комплекс автоматизации с низким уровнем кода» . Форбс . Проверено 21 апреля 2021 г.

[12] Адамо, Франческо; Аттивиссимо, Филиппо; Ди Нисио, Аттилио; Спадавеккья, Маурицио (февраль 2015 г.). «Автоматическая система обработки документов для извлечения медицинских данных» . Измерение . 61 : 88–99. Бибкод : 2015Измерение...61...88А . дои : 10.1016/j.measurement.2014.10.032 . Проверено 31 января 2021 г.

[13] Чангван, Ким; Сон Иль, Ли; Вон Джун, Чо (сентябрь 2020 г.). «Объемная оценка экструзии при разрыве заднего корня медиального мениска посредством полуавтоматической сегментации на магнитно-резонансных изображениях с силой 3 Тесла» . Ортопедия и травматология: хирургия и исследования . 101 (5): 963–968. дои : 10.1016/j.rcot.2020.06.003 . S2CID 225215597 . Проверено 31 января 2021 г.

[14] Деспотович, Ивана; Барт, Гуссенс; Уилфрид, Philips (1 марта 2015 г.). «МРТ-сегментация человеческого мозга: проблемы, методы и приложения» . Методы вычислительного интеллекта в медицине . 2015 : 963–968. дои : 10.1155/2015/450341 . ПМК 4402572 . ПМИД 25945121 .

[15] Путцуа, Лоренцо; Каоччи, Джованни; Ди Рубертоа, Сесилия (ноябрь 2014 г.). «Классификация лейкоцитов для выявления лейкемии с использованием методов обработки изображений» . Искусственный интеллект в медицине . 63 (3): 179–191. дои : 10.1016/j.artmed.2014.09.002 . hdl : 11584/94592 . ПМИД 25241903 .

[16] Эрманн, Мод; Романелло, Маттео; Клематид, Саймон; Шрёбель, Филипп; Барман, Рафаэль (2020). «Языковые ресурсы для исторических газет: коллекция Impresso» . Материалы 12-й конференции по языковым ресурсам и оценке . Марсель, Франция. стр. 958–968.

[cini_archive_digitization-17] Перейти обратно: ^а ^б Сеген, Бенуа; Костинер, Лисандра; ди Ленардо, Изабелла; Каплан, Фредерик (1 апреля 2018 г.). «Новые методы оцифровки художественно-исторических фотоархивов на примере Фонда Чини в Венеции» . Архивирование итоговой программы и материалов 2018 года . Общество визуализации, науки и технологий. стр. 1–5. дои : 10.2352/issn.2168-3204.2018.1.0.2 .

[18] Арес Оливейра, София; ди Ленардо, Изабелла; Туренц, Бастьен; Каплан, Фредерик (11 июля 2019 г.). Подход глубокого обучения к кадастровым вычислениям . Конференция по цифровым гуманитарным наукам. Утрехт, Нидерланды.

[19] Петитпьер, Реми (июль 2020 г.). Нейронные сети для семантической сегментации исторических карт города: межкультурные характеристики и влияние образного разнообразия (магистр). arXiv : 2101.12478 . дои : 10.13140/RG.2.2.10973.64484 .

[20] Фудзисава, Х.; Накано, Ю.; Курино, К. (июль 1992 г.). «Методы сегментации для распознавания символов: от сегментации к анализу структуры документа» . Труды IEEE . 80 (7): 1079–1092. дои : 10.1109/5.156471 . Проверено 3 февраля 2021 г.

[21] Тан, Юань Ю.; Ли, Сон-Ван; Суен, Чинг Ю. (1996). «Автоматическая обработка документов: опрос» . Распознавание образов . 29 (12): 1931–1952. Бибкод : 1996PatRe..29.1931T . дои : 10.1016/S0031-3203(96)00044-1 . Проверено 3 февраля 2021 г.

[22] Арес Оливейра, София; Сеген, Бенуа; Каплан, Фредерик (5–8 августа 2018 г.). dhSegment: универсальный подход глубокого обучения для сегментации документов . 2018 16-я Международная конференция «Границы в распознавании рукописного текста» (ICFHR). Ниагарский водопад, штат Нью-Йорк, США: IEEE. arXiv : 1804.10371 . дои : 10.1109/ICFHR-2018.2018.00011 .

[23] «Революционная технология сканирования для искусства» . Артмын . Проверено 3 февраля 2021 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]