Jump to content

Общая архитектура текстовой инженерии

ВОРОТА
Разработчик(и) Исследовательская группа GATE , кафедра компьютерных наук, Университет Шеффилда
Первоначальный выпуск 1995 год ; 29 лет назад ( 1995 )
Стабильная версия 8.6.1 (17 января 2020 г .; 4 года назад ( 17.01.2020 ) ) [±]
Предварительный выпуск 9.0-SNAPSHOT (14 июня 2024 г. (ночные сборки выпускаются каждый день)) [±]
Репозиторий
Написано в Ява
Операционная система Кросс-платформенный
Доступно в Английский
Тип Анализ текста Извлечение информации
Лицензия LGPL
Веб-сайт ворота .uk

Общая архитектура для текстовой инженерии или GATE — это Java набор инструментов , первоначально разработанный в Университете Шеффилда в 1995 году и в настоящее время используемый во всем мире широким сообществом ученых, компаний, преподавателей и студентов для многих обработки естественного языка задач , включая извлечение информации в много языков. [1]

По состоянию на 28 мая 2011 года в списке рассылки Gate-User на SourceForge.net зарегистрирован 881 человек, а 111 932 загрузки с SourceForge . с момента перехода проекта на SourceForge в 2005 году зарегистрировано [2] Статья «GATE: Фреймворк и графическая среда разработки для надежных инструментов и приложений НЛП» [3] с момента публикации получил более 2000 цитирований (по данным Google Scholar). Книги, посвященные использованию GATE, в дополнение к Руководству пользователя GATE, [4] включить «Создание поисковых приложений: Lucene, LingPipe и Gate», Ману Кончади, [5] и «Введение в лингвистические аннотации и текстовую аналитику» Грэма Уилкока. [6]

Сообщество и исследования GATE принимали участие в нескольких европейских исследовательских проектах, включая: Transitioning Applications to Ontologies, SEKT, NeOn, Media-Campaign, Musing, Service-Finder, LIRICS и KnowledgeWeb .

Особенности [ править ]

GATE включает в себя извлечения информации систему под названием ANNIE ( почти новая система извлечения информации ), которая представляет собой набор модулей, включающих токенизатор , справочник , разделитель предложений , тегировщик части речи , преобразователь именованных сущностей и тегировщик кореференции . ANNIE можно использовать «как есть» для обеспечения базовых функций извлечения информации или в качестве отправной точки для решения более конкретных задач.

В настоящее время GATE поддерживает следующие языки: английский , китайский , арабский , болгарский , французский , немецкий , хинди , итальянский , кебуанский , румынский , русский , датский .

Включены плагины для машинного обучения с Weka , RASP, MAXENT, SVM Light, а также для интеграции LIBSVM и собственной реализации перцептрона , для управления онтологиями, такими как WordNet , для запросов к поисковым системам , таким как Google или Yahoo , для частичной маркировки речи. с Brill или TreeTagger и многими другими. Также доступно множество внешних плагинов, например, для обработки твитов . [7]

GATE принимает входные данные в различных форматах, таких как TXT , HTML , XML , Doc , PDF документы , а также Java Serial , PostgreSQL , Lucene , базы данных Oracle с помощью RDBMS хранилища через JDBC .

Преобразователи JAPE используются в GATE для управления аннотациями к тексту. Документация представлена ​​в Руководстве пользователя GATE. [8] Учебное пособие также было написано Press Association Images. [9]

Разработчик GATE [ править ]

Главное окно GATE 5.

На снимке экрана показано средство просмотра документов, используемое для отображения документа и его аннотаций. В розовом цвете <a> аннотации гиперссылок из HTML- файла. Правый список — это список наборов аннотаций, а нижняя таблица — список аннотаций. В центре находится окно редактора аннотаций.

ВОРОТА Мимира [ править ]

GATE генерирует огромные объемы информации, в том числе; текст на естественном языке, семантические аннотации и онтологическая информация. Иногда данные сами по себе являются конечным продуктом приложения, но часто информация была бы более полезной, если бы ее можно было эффективно искать. GATE Mimir обеспечивает поддержку индексации и поиска лингвистической и семантической информации, генерируемой такими приложениями, и позволяет запрашивать информацию, используя произвольные комбинации текста, структурной информации и SPARQL .

См. также [ править ]

Ссылки [ править ]

  1. ^ Языки, упомянутые на https://gate.ac.uk/gate/plugins/, включают арабский, болгарский, кебуанский, китайский, французский, немецкий, хинди, итальянский, румынский и русский.
  2. ^ "ВОРОТА" . Проверено 17 декабря 2016 г.
  3. ^ «GATE: структура и графическая среда разработки для надежных инструментов и приложений НЛП» , Каннингем Х., Мейнард Д. , Бончева К. и Таблан В. (В материалах 40-го юбилейного собрания Ассоциации компьютерной лингвистики, 2002)
  4. ^ «GATE.ac.uk — продажа/тао/split.html» . Проверено 17 декабря 2016 г.
  5. ^ Кончади, Ману. Создание поисковых приложений: Lucene, LingPipe и Gate . Издательство Мустру. 2008.
  6. ^ Уилкок, Грэм (1 января 2009 г.). Введение в лингвистическую аннотацию и текстовую аналитику . Издательство Морган и Клейпул. ISBN  9781598297386 . Проверено 17 декабря 2016 г. - через Google Книги.
  7. ^ «GATE.ac.uk — wiki/twitie.html» . Проверено 17 декабря 2016 г.
  8. ^ "GATE.ac.uk - sale/tao/splitch8.html" . Проверено 17 декабря 2016 г.
  9. ^ Таккер, Дхавалкумар (17 июля 2009 г.). «Реализация семантической сети: учебник по грамматике JAPE» . Проверено 17 декабря 2016 г.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 042eab58a7650e6a5ba61d7ad8021369__1679743080
URL1:https://arc.ask3.ru/arc/aa/04/69/042eab58a7650e6a5ba61d7ad8021369.html
Заголовок, (Title) документа по адресу, URL1:
General Architecture for Text Engineering - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)