Jump to content

Извлечение таблицы

Извлечение таблицы — это процесс распознавания и отделения таблицы от большого документа, возможно также распознавание отдельных строк, столбцов или элементов.Это можно рассматривать как особую форму извлечения информации .

Для извлечения таблиц с веб-страниц можно использовать специальные элементы HTML , существующие для таблиц, например тег «table»,а библиотеки программирования могут реализовывать извлечение таблиц с веб-страниц.Программная библиотека Python pandas может извлекать таблицы с веб-страниц HTML с помощью функции read_html().

Более сложной задачей является извлечение таблиц из PDF-файлов или отсканированных изображений , где обычно нет машиночитаемой разметки для конкретной таблицы. [1] системы, извлекающие данные из таблиц в научных PDF-файлах . Описаны [2] [3]

Arc.Ask3.Ru представляет часть своей информации в таблицах, можно извлечь 3,5 миллиона таблиц и, например, из английской Википедии . [4] Некоторые таблицы имеют определенный формат, например, так называемые информационные боксы .Масштабное извлечение таблиц из информационных боксов Википедии является одним из источников для DBpedia . [5]

Существуют коммерческие веб-сервисы для извлечения таблиц, например Amazon Textract, от Google Document AI , IBM Watson Discovery и Microsoft Form Recnower. [1] Также существуют инструменты с открытым исходным кодом, например PDFFigures 2.0, который использовался в Semantic Scholar . [6] В сравнении, опубликованном в 2017 году, исследователи обнаружили, что собственная программа ABBYY FineReader обеспечивает лучшую производительность извлечения таблиц PDF среди шести различных оцененных инструментов. [7] По данным сравнительной оценки 2023 года, [8] Экстракт Adobe, [9] облачный API -платформу Adobe Sensei , использующий AI , [10] показал лучшие результаты среди пяти инструментов, оцененных для извлечения таблиц.

Ссылки [ править ]

  1. ^ Jump up to: Перейти обратно: а б Дуглас Бердик; Марина Данилевская; Александр Евфимиевский; Яннис Кацис; Нэнси Ван (август 2020 г.). «Извлечение и понимание таблиц для научных и корпоративных приложений». Труды Фонда VLDB. Международная конференция по очень большим базам данных . 13 (12): 3433–3436. дои : 10.14778/3415478.3415563 . ISSN   2150-8097 . Викиданные   Q108170445 .
  2. ^ Вэньхао Юй; Вэй Пэн; Ю Шу; Цинкай Цзэн; Мэн Цзян (19 апреля 2020 г.). Экспериментальная система извлечения данных в области науки о данных с функциями гибридных таблиц и ансамблевым обучением . стр. 951–961. дои : 10.1145/3366423.3380174 . ISBN  978-1-4503-7023-3 . Викиданные   Q108172460 . {{cite book}}: |journal= игнорируется ( помогите )
  3. ^ Бенно Круит; Хунъю Хэ; Якопо Урбани (1 ноября 2020 г.). Tab2Know: построение базы знаний на основе таблиц в научных статьях . Конспекты лекций по информатике . стр. 349–365. arXiv : 2107.13306 . дои : 10.1007/978-3-030-62419-4_20 . ISBN  978-3-030-62419-4 . Викиданные   Q101086651 . {{cite book}}: |journal= игнорируется ( помогите )
  4. ^ Тобиас Блейфус; Леон Борнеманн; Дмитрий Владимирович Калашников; Феликс Науманн; Дивеш Шривастава (17 августа 2021 г.). «Тайная жизнь таблиц Википедии» (PDF) . Материалы 2-го семинара по поиску, исследованию и анализу в гетерогенных хранилищах данных . Материалы семинара CEUR: 20–26. Викиданные   Q108215401 .
  5. ^ Сёрен Ауэр; Кристиан Бизер; Георгий Кобиларов; Йенс Леманн ; Ричард Циганиак; Закари Г. Айвз (2007). DBpedia: ядро ​​сети открытых данных . Конспекты лекций по информатике . стр. 722–735. дои : 10.1007/978-3-540-76298-0_52 . ISBN  978-3-540-76297-3 . Викиданные   Q27910422 . {{cite book}}: |journal= игнорируется ( помогите )
  6. ^ Кристофер Кларк; Сантош Диввала (2016), PDFFigures 2.0: Цифры майнинга из исследовательских работ , Материалы 16-й ACM/IEEE-CS по совместной конференции по цифровым библиотекам - JCDL '16, Wikidata   Q108172042
  7. ^ Андрейвид Шеффер Корреа; Пяр-Ола Зандер (7 июня 2017 г.), Использование табличного содержимого для открытых данных: обзор методов и инструментов извлечения таблиц PDF , doi : 10.1145/3085228.3085278 , Wikidata   Q108173686
  8. ^ Меушке, Норман; Джагдале, Апурва; Спинде, Тимо; Митрович, Елена; Гипп, Бела (2023), Ссерванга, Исаак; Гулдинг, Энн; Мулезон-Сэнди, Хизер; Ду, Цзя Тина (ред.), «Эталон инструментов извлечения информации из PDF-файлов с использованием многозадачной и многодоменной структуры оценки академических документов» , «Информация для лучшего мира: нормальность, виртуальность, физичность, инклюзивность» , том. 13972, Cham: Springer Nature Switzerland, стр. 383–405, arXiv : 2303.09957 , doi : 10.1007/978-3-031-28032-0_31 , ISBN  978-3-031-28031-3
  9. ^ «API Adobe PDF Extract» . Adobe . Проверено 15 марта 2024 г.
  10. ^ «Испытайте облачные услуги искусственного интеллекта с Adobe Sensei» . Adobe . Проверено 15 марта 2024 г.
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: f8f4abec73da5fd0ba193f6770009f45__1714186560
URL1:https://arc.ask3.ru/arc/aa/f8/45/f8f4abec73da5fd0ba193f6770009f45.html
Заголовок, (Title) документа по адресу, URL1:
Table extraction - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)