Извлечение таблицы
Извлечение таблицы — это процесс распознавания и отделения таблицы от большого документа, возможно также распознавание отдельных строк, столбцов или элементов.Это можно рассматривать как особую форму извлечения информации .
Для извлечения таблиц с веб-страниц можно использовать специальные элементы HTML , существующие для таблиц, например тег «table»,а библиотеки программирования могут реализовывать извлечение таблиц с веб-страниц.Программная библиотека Python pandas может извлекать таблицы с веб-страниц HTML с помощью функции read_html().
Более сложной задачей является извлечение таблиц из PDF-файлов или отсканированных изображений , где обычно нет машиночитаемой разметки для конкретной таблицы. [1] системы, извлекающие данные из таблиц в научных PDF-файлах . Описаны [2] [3]
Arc.Ask3.Ru представляет часть своей информации в таблицах, можно извлечь 3,5 миллиона таблиц и, например, из английской Википедии . [4] Некоторые таблицы имеют определенный формат, например, так называемые информационные боксы .Масштабное извлечение таблиц из информационных боксов Википедии является одним из источников для DBpedia . [5]
Существуют коммерческие веб-сервисы для извлечения таблиц, например Amazon Textract, от Google Document AI , IBM Watson Discovery и Microsoft Form Recnower. [1] Также существуют инструменты с открытым исходным кодом, например PDFFigures 2.0, который использовался в Semantic Scholar . [6] В сравнении, опубликованном в 2017 году, исследователи обнаружили, что собственная программа ABBYY FineReader обеспечивает лучшую производительность извлечения таблиц PDF среди шести различных оцененных инструментов. [7] По данным сравнительной оценки 2023 года, [8] Экстракт Adobe, [9] облачный API -платформу Adobe Sensei , использующий AI , [10] показал лучшие результаты среди пяти инструментов, оцененных для извлечения таблиц.
Ссылки [ править ]
- ^ Jump up to: Перейти обратно: а б Дуглас Бердик; Марина Данилевская; Александр Евфимиевский; Яннис Кацис; Нэнси Ван (август 2020 г.). «Извлечение и понимание таблиц для научных и корпоративных приложений». Труды Фонда VLDB. Международная конференция по очень большим базам данных . 13 (12): 3433–3436. дои : 10.14778/3415478.3415563 . ISSN 2150-8097 . Викиданные Q108170445 .
- ^ Вэньхао Юй; Вэй Пэн; Ю Шу; Цинкай Цзэн; Мэн Цзян (19 апреля 2020 г.). Экспериментальная система извлечения данных в области науки о данных с функциями гибридных таблиц и ансамблевым обучением . стр. 951–961. дои : 10.1145/3366423.3380174 . ISBN 978-1-4503-7023-3 . Викиданные Q108172460 .
{{cite book}}
:|journal=
игнорируется ( помогите ) - ^ Бенно Круит; Хунъю Хэ; Якопо Урбани (1 ноября 2020 г.). Tab2Know: построение базы знаний на основе таблиц в научных статьях . Конспекты лекций по информатике . стр. 349–365. arXiv : 2107.13306 . дои : 10.1007/978-3-030-62419-4_20 . ISBN 978-3-030-62419-4 . Викиданные Q101086651 .
{{cite book}}
:|journal=
игнорируется ( помогите ) - ^ Тобиас Блейфус; Леон Борнеманн; Дмитрий Владимирович Калашников; Феликс Науманн; Дивеш Шривастава (17 августа 2021 г.). «Тайная жизнь таблиц Википедии» (PDF) . Материалы 2-го семинара по поиску, исследованию и анализу в гетерогенных хранилищах данных . Материалы семинара CEUR: 20–26. Викиданные Q108215401 .
- ^ Сёрен Ауэр; Кристиан Бизер; Георгий Кобиларов; Йенс Леманн ; Ричард Циганиак; Закари Г. Айвз (2007). DBpedia: ядро сети открытых данных . Конспекты лекций по информатике . стр. 722–735. дои : 10.1007/978-3-540-76298-0_52 . ISBN 978-3-540-76297-3 . Викиданные Q27910422 .
{{cite book}}
:|journal=
игнорируется ( помогите ) - ^ Кристофер Кларк; Сантош Диввала (2016), PDFFigures 2.0: Цифры майнинга из исследовательских работ , Материалы 16-й ACM/IEEE-CS по совместной конференции по цифровым библиотекам - JCDL '16, Wikidata Q108172042
- ^ Андрейвид Шеффер Корреа; Пяр-Ола Зандер (7 июня 2017 г.), Использование табличного содержимого для открытых данных: обзор методов и инструментов извлечения таблиц PDF , doi : 10.1145/3085228.3085278 , Wikidata Q108173686
- ^ Меушке, Норман; Джагдале, Апурва; Спинде, Тимо; Митрович, Елена; Гипп, Бела (2023), Ссерванга, Исаак; Гулдинг, Энн; Мулезон-Сэнди, Хизер; Ду, Цзя Тина (ред.), «Эталон инструментов извлечения информации из PDF-файлов с использованием многозадачной и многодоменной структуры оценки академических документов» , «Информация для лучшего мира: нормальность, виртуальность, физичность, инклюзивность» , том. 13972, Cham: Springer Nature Switzerland, стр. 383–405, arXiv : 2303.09957 , doi : 10.1007/978-3-031-28032-0_31 , ISBN 978-3-031-28031-3
- ^ «API Adobe PDF Extract» . Adobe . Проверено 15 марта 2024 г.
- ^ «Испытайте облачные услуги искусственного интеллекта с Adobe Sensei» . Adobe . Проверено 15 марта 2024 г.