Извлечение таблицы

Извлечение таблицы — это процесс распознавания и отделения таблицы от большого документа, возможно также распознавание отдельных строк, столбцов или элементов.Это можно рассматривать как особую форму извлечения информации .

Для извлечения таблиц с веб-страниц можно использовать специальные элементы HTML , существующие для таблиц, например тег «table»,а библиотеки программирования могут реализовывать извлечение таблиц с веб-страниц.Программная библиотека Python pandas может извлекать таблицы с веб-страниц HTML с помощью функции read_html().

Более сложной задачей является извлечение таблиц из PDF-файлов или отсканированных изображений , где обычно нет машиночитаемой разметки для конкретной таблицы. ^[1] системы, извлекающие данные из таблиц в научных PDF-файлах . Описаны ^[2]^[3]

Arc.Ask3.Ru представляет часть своей информации в таблицах, можно извлечь 3,5 миллиона таблиц и, например, из английской Википедии . ^[4]Некоторые таблицы имеют определенный формат, например, так называемые информационные боксы .Масштабное извлечение таблиц из информационных боксов Википедии является одним из источников для DBpedia . ^[5]

Существуют коммерческие веб-сервисы для извлечения таблиц, например Amazon Textract, от Google Document AI , IBM Watson Discovery и Microsoft Form Recnower. ^[1]Также существуют инструменты с открытым исходным кодом, например PDFFigures 2.0, который использовался в Semantic Scholar . ^[6]В сравнении, опубликованном в 2017 году, исследователи обнаружили, что собственная программа ABBYY FineReader обеспечивает лучшую производительность извлечения таблиц PDF среди шести различных оцененных инструментов. ^[7] По данным сравнительной оценки 2023 года, ^[8] Экстракт Adobe, ^[9] облачный API -платформу Adobe Sensei , использующий AI , ^[10] показал лучшие результаты среди пяти инструментов, оцененных для извлечения таблиц.

Ссылки [ править ]

У Scholia есть темы профиль «Извлечение таблиц» .

^ Jump up to: Перейти обратно: ^а ^б Дуглас Бердик; Марина Данилевская; Александр Евфимиевский; Яннис Кацис; Нэнси Ван (август 2020 г.). «Извлечение и понимание таблиц для научных и корпоративных приложений». Труды Фонда VLDB. Международная конференция по очень большим базам данных . 13 (12): 3433–3436. дои : 10.14778/3415478.3415563 . ISSN 2150-8097 . Викиданные Q108170445 .
^ Вэньхао Юй; Вэй Пэн; Ю Шу; Цинкай Цзэн; Мэн Цзян (19 апреля 2020 г.). Экспериментальная система извлечения данных в области науки о данных с функциями гибридных таблиц и ансамблевым обучением . стр. 951–961. дои : 10.1145/3366423.3380174 . ISBN 978-1-4503-7023-3 . Викиданные Q108172460 . {{cite book}}: |journal= игнорируется ( помогите )
^ Бенно Круит; Хунъю Хэ; Якопо Урбани (1 ноября 2020 г.). Tab2Know: построение базы знаний на основе таблиц в научных статьях . Конспекты лекций по информатике . стр. 349–365. arXiv : 2107.13306 . дои : 10.1007/978-3-030-62419-4_20 . ISBN 978-3-030-62419-4 . Викиданные Q101086651 . {{cite book}}: |journal= игнорируется ( помогите )
^ Тобиас Блейфус; Леон Борнеманн; Дмитрий Владимирович Калашников; Феликс Науманн; Дивеш Шривастава (17 августа 2021 г.). «Тайная жизнь таблиц Википедии» (PDF) . Материалы 2-го семинара по поиску, исследованию и анализу в гетерогенных хранилищах данных . Материалы семинара CEUR: 20–26. Викиданные Q108215401 .
^ Сёрен Ауэр; Кристиан Бизер; Георгий Кобиларов; Йенс Леманн ; Ричард Циганиак; Закари Г. Айвз (2007). DBpedia: ядро сети открытых данных . Конспекты лекций по информатике . стр. 722–735. дои : 10.1007/978-3-540-76298-0_52 . ISBN 978-3-540-76297-3 . Викиданные Q27910422 . {{cite book}}: |journal= игнорируется ( помогите )
^ Кристофер Кларк; Сантош Диввала (2016), PDFFigures 2.0: Цифры майнинга из исследовательских работ , Материалы 16-й ACM/IEEE-CS по совместной конференции по цифровым библиотекам - JCDL '16, Wikidata Q108172042
^ Андрейвид Шеффер Корреа; Пяр-Ола Зандер (7 июня 2017 г.), Использование табличного содержимого для открытых данных: обзор методов и инструментов извлечения таблиц PDF , doi : 10.1145/3085228.3085278 , Wikidata Q108173686
^ Меушке, Норман; Джагдале, Апурва; Спинде, Тимо; Митрович, Елена; Гипп, Бела (2023), Ссерванга, Исаак; Гулдинг, Энн; Мулезон-Сэнди, Хизер; Ду, Цзя Тина (ред.), «Эталон инструментов извлечения информации из PDF-файлов с использованием многозадачной и многодоменной структуры оценки академических документов» , «Информация для лучшего мира: нормальность, виртуальность, физичность, инклюзивность» , том. 13972, Cham: Springer Nature Switzerland, стр. 383–405, arXiv : 2303.09957 , doi : 10.1007/978-3-031-28032-0_31 , ISBN 978-3-031-28031-3
^ «API Adobe PDF Extract» . Adobe . Проверено 15 марта 2024 г.
^ «Испытайте облачные услуги искусственного интеллекта с Adobe Sensei» . Adobe . Проверено 15 марта 2024 г.

[Table_Extraction_and_Understanding_for_Scientific_and_Enterprise_Applications-1] Jump up to: Перейти обратно: ^а ^б Дуглас Бердик; Марина Данилевская; Александр Евфимиевский; Яннис Кацис; Нэнси Ван (август 2020 г.). «Извлечение и понимание таблиц для научных и корпоративных приложений». Труды Фонда VLDB. Международная конференция по очень большим базам данных . 13 (12): 3433–3436. дои : 10.14778/3415478.3415563 . ISSN 2150-8097 . Викиданные Q108170445 .

[2] Вэньхао Юй; Вэй Пэн; Ю Шу; Цинкай Цзэн; Мэн Цзян (19 апреля 2020 г.). Экспериментальная система извлечения данных в области науки о данных с функциями гибридных таблиц и ансамблевым обучением . стр. 951–961. дои : 10.1145/3366423.3380174 . ISBN 978-1-4503-7023-3 . Викиданные Q108172460 . {{cite book}}: |journal= игнорируется ( помогите )

[3] Бенно Круит; Хунъю Хэ; Якопо Урбани (1 ноября 2020 г.). Tab2Know: построение базы знаний на основе таблиц в научных статьях . Конспекты лекций по информатике . стр. 349–365. arXiv : 2107.13306 . дои : 10.1007/978-3-030-62419-4_20 . ISBN 978-3-030-62419-4 . Викиданные Q101086651 . {{cite book}}: |journal= игнорируется ( помогите )

[4] Тобиас Блейфус; Леон Борнеманн; Дмитрий Владимирович Калашников; Феликс Науманн; Дивеш Шривастава (17 августа 2021 г.). «Тайная жизнь таблиц Википедии» (PDF) . Материалы 2-го семинара по поиску, исследованию и анализу в гетерогенных хранилищах данных . Материалы семинара CEUR: 20–26. Викиданные Q108215401 .

[5] Сёрен Ауэр; Кристиан Бизер; Георгий Кобиларов; Йенс Леманн ; Ричард Циганиак; Закари Г. Айвз (2007). DBpedia: ядро сети открытых данных . Конспекты лекций по информатике . стр. 722–735. дои : 10.1007/978-3-540-76298-0_52 . ISBN 978-3-540-76297-3 . Викиданные Q27910422 . {{cite book}}: |journal= игнорируется ( помогите )

[6] Кристофер Кларк; Сантош Диввала (2016), PDFFigures 2.0: Цифры майнинга из исследовательских работ , Материалы 16-й ACM/IEEE-CS по совместной конференции по цифровым библиотекам - JCDL '16, Wikidata Q108172042

[7] Андрейвид Шеффер Корреа; Пяр-Ола Зандер (7 июня 2017 г.), Использование табличного содержимого для открытых данных: обзор методов и инструментов извлечения таблиц PDF , doi : 10.1145/3085228.3085278 , Wikidata Q108173686

[8] Меушке, Норман; Джагдале, Апурва; Спинде, Тимо; Митрович, Елена; Гипп, Бела (2023), Ссерванга, Исаак; Гулдинг, Энн; Мулезон-Сэнди, Хизер; Ду, Цзя Тина (ред.), «Эталон инструментов извлечения информации из PDF-файлов с использованием многозадачной и многодоменной структуры оценки академических документов» , «Информация для лучшего мира: нормальность, виртуальность, физичность, инклюзивность» , том. 13972, Cham: Springer Nature Switzerland, стр. 383–405, arXiv : 2303.09957 , doi : 10.1007/978-3-031-28032-0_31 , ISBN 978-3-031-28031-3

[9] «API Adobe PDF Extract» . Adobe . Проверено 15 марта 2024 г.

[10] «Испытайте облачные услуги искусственного интеллекта с Adobe Sensei» . Adobe . Проверено 15 марта 2024 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]