Общая архитектура текстовой инженерии
Разработчик(и) | Исследовательская группа GATE , кафедра компьютерных наук, Университет Шеффилда |
---|---|
Первоначальный выпуск | 1995 год |
Стабильная версия | 8.6.1 (17 января 2020 г [±] | )
Предварительный выпуск | 9.0-SNAPSHOT (14 июня 2024 г. (ночные сборки выпускаются каждый день)) [±] |
Репозиторий | |
Написано в | Ява |
Операционная система | Кросс-платформенный |
Доступно в | Английский |
Тип | Анализ текста Извлечение информации |
Лицензия | LGPL |
Веб-сайт | ворота |
Общая архитектура для текстовой инженерии или GATE — это Java набор инструментов , первоначально разработанный в Университете Шеффилда в 1995 году и в настоящее время используемый во всем мире широким сообществом ученых, компаний, преподавателей и студентов для многих обработки естественного языка задач , включая извлечение информации в много языков. [1]
По состоянию на 28 мая 2011 года в списке рассылки Gate-User на SourceForge.net зарегистрирован 881 человек, а 111 932 загрузки с SourceForge . с момента перехода проекта на SourceForge в 2005 году зарегистрировано [2] Статья «GATE: Фреймворк и графическая среда разработки для надежных инструментов и приложений НЛП» [3] с момента публикации получил более 2000 цитирований (по данным Google Scholar). Книги, посвященные использованию GATE, в дополнение к Руководству пользователя GATE, [4] включить «Создание поисковых приложений: Lucene, LingPipe и Gate», Ману Кончади, [5] и «Введение в лингвистические аннотации и текстовую аналитику» Грэма Уилкока. [6]
Сообщество и исследования GATE принимали участие в нескольких европейских исследовательских проектах, включая: Transitioning Applications to Ontologies, SEKT, NeOn, Media-Campaign, Musing, Service-Finder, LIRICS и KnowledgeWeb .
Особенности [ править ]
GATE включает в себя извлечения информации систему под названием ANNIE ( почти новая система извлечения информации ), которая представляет собой набор модулей, включающих токенизатор , справочник , разделитель предложений , тегировщик части речи , преобразователь именованных сущностей и тегировщик кореференции . ANNIE можно использовать «как есть» для обеспечения базовых функций извлечения информации или в качестве отправной точки для решения более конкретных задач.
В настоящее время GATE поддерживает следующие языки: английский , китайский , арабский , болгарский , французский , немецкий , хинди , итальянский , кебуанский , румынский , русский , датский .
Включены плагины для машинного обучения с Weka , RASP, MAXENT, SVM Light, а также для интеграции LIBSVM и собственной реализации перцептрона , для управления онтологиями, такими как WordNet , для запросов к поисковым системам , таким как Google или Yahoo , для частичной маркировки речи. с Brill или TreeTagger и многими другими. Также доступно множество внешних плагинов, например, для обработки твитов . [7]
GATE принимает входные данные в различных форматах, таких как TXT , HTML , XML , Doc , PDF документы , а также Java Serial , PostgreSQL , Lucene , базы данных Oracle с помощью RDBMS хранилища через JDBC .
Преобразователи JAPE используются в GATE для управления аннотациями к тексту. Документация представлена в Руководстве пользователя GATE. [8] Учебное пособие также было написано Press Association Images. [9]
Разработчик GATE [ править ]
На снимке экрана показано средство просмотра документов, используемое для отображения документа и его аннотаций. В розовом цвете <a>
аннотации гиперссылок из HTML- файла. Правый список — это список наборов аннотаций, а нижняя таблица — список аннотаций. В центре находится окно редактора аннотаций.
ВОРОТА Мимира [ править ]
GATE генерирует огромные объемы информации, в том числе; текст на естественном языке, семантические аннотации и онтологическая информация. Иногда данные сами по себе являются конечным продуктом приложения, но часто информация была бы более полезной, если бы ее можно было эффективно искать. GATE Mimir обеспечивает поддержку индексации и поиска лингвистической и семантической информации, генерируемой такими приложениями, и позволяет запрашивать информацию, используя произвольные комбинации текста, структурной информации и SPARQL .
См. также [ править ]
- Неструктурированная архитектура управления информацией (UIMA)
- ОпенНЛП
- Pheme — крупный проект ЕС, управляемый группой GATE, по раннему обнаружению ложной информации в социальных сетях.
Ссылки [ править ]
- ^ Языки, упомянутые на https://gate.ac.uk/gate/plugins/, включают арабский, болгарский, кебуанский, китайский, французский, немецкий, хинди, итальянский, румынский и русский.
- ^ "ВОРОТА" . Проверено 17 декабря 2016 г.
- ^ «GATE: структура и графическая среда разработки для надежных инструментов и приложений НЛП» , Каннингем Х., Мейнард Д. , Бончева К. и Таблан В. (В материалах 40-го юбилейного собрания Ассоциации компьютерной лингвистики, 2002)
- ^ «GATE.ac.uk — продажа/тао/split.html» . Проверено 17 декабря 2016 г.
- ^ Кончади, Ману. Создание поисковых приложений: Lucene, LingPipe и Gate . Издательство Мустру. 2008.
- ^ Уилкок, Грэм (1 января 2009 г.). Введение в лингвистическую аннотацию и текстовую аналитику . Издательство Морган и Клейпул. ISBN 9781598297386 . Проверено 17 декабря 2016 г. - через Google Книги.
- ^ «GATE.ac.uk — wiki/twitie.html» . Проверено 17 декабря 2016 г.
- ^ "GATE.ac.uk - sale/tao/splitch8.html" . Проверено 17 декабря 2016 г.
- ^ Таккер, Дхавалкумар (17 июля 2009 г.). «Реализация семантической сети: учебник по грамматике JAPE» . Проверено 17 декабря 2016 г.
Внешние ссылки [ править ]
- Программное обеспечение для интеллектуального анализа данных и машинного обучения
- Бесплатные компьютерные библиотеки
- Бесплатное научное программное обеспечение
- Бесплатное программное обеспечение, написанное на Java (языке программирования).
- Бесплатные интегрированные среды разработки
- Представление знаний
- Наборы инструментов для обработки естественного языка
- Редакторы онтологий