Карта ЖРД
Карта LRE (Языковые ресурсы и оценка) — это свободно доступная большая база данных ресурсов, посвященных обработке естественного языка . Оригинальная особенность LRE Map заключается в том, что записи собираются во время подачи заявок на различные крупные конференции по обработке естественного языка . Затем записи очищаются и собираются в глобальную базу данных под названием «Карта LRE». [1]
Карта LRE предназначена стать инструментом для сбора информации о языковых ресурсах и в то же время стать сообществом для пользователей, местом для обмена и открытия ресурсов, обсуждения мнений, предоставления обратной связи, открытия новых тенденций и т. д. — это инструмент для обнаружения, поиска и документирования языковых ресурсов, который здесь понимается в широком смысле как данные и инструменты.
Большой объем информации, содержащейся на карте, можно анализировать разными способами. Например, карта LRE может предоставить информацию о наиболее часто встречающемся типе ресурсов, наиболее представленном языке, приложениях, для которых ресурсы используются или разрабатываются, пропорции новых ресурсов по сравнению с уже существующими или о том, как ресурсы распределяются среди сообщества.
Контекст
[ редактировать ]Несколько учреждений по всему миру ведут каталоги языковых ресурсов.(ELRA, LDC , NICT Универсальный каталог ACL , Репозиторий данных и кодов , OLAC , LT World и т. д.) [2] Однако было подсчитано, что только 10% существующих ресурсов известны либо через каталоги распространения, либо через прямую рекламу со стороны поставщиков (веб-сайты и т.п.). Остальное остается скрытым, единственные случаи, когда оно ненадолго всплывает, — это когда ресурс представлен в контексте исследовательской статьи или отчета на какой-либо конференции. Тем не менее, даже в этом случае ресурс может оставаться на заднем плане просто потому, что фокус исследования не сосредоточен на ресурсе как таковом .
История
[ редактировать ]Карта LRE возникла под названием «Карта LREC» во время подготовки конференции LREC 2010. [3] В частности, идея обсуждалась в рамках проекта FlaReNet, а в сотрудничестве с ELRA и Институтом компьютерной лингвистики CNR в Пизе Карта была представлена на LREC 2010. [4] Организаторы ЛРЭЦ попросили авторов предоставить некоторую базовую информацию обо всех ресурсах (в широком смысле, т.е. включая инструменты, стандарты и пакеты оценки), использованных или созданных, описанных в их статьях. Все эти дескрипторы затем были собраны в глобальную матрицу, называемую картой LREC.
Та же методология и требования авторов были затем применены и распространены на другие конференции, а именно COLING-2010, [5] ЭМНЛП-2010, [6] РАНЛП-2011, [7] ЛРЭЦ 2012, [8] ЛРЭЦ 2014 [9] и ЛРЭЦ 2016. [10]
После этого обобщения на другие конференции карта LREC была переименована в карту LRE .
Размер и содержание
[ редактировать ]Размер базы данных со временем увеличивается. Собранные данные составляют 4776 записей.
Каждый ресурс описывается по следующим атрибутам:
- Тип ресурса, например лексикон , инструмент аннотаций, тегировщик/парсер .
- Статус производства ресурсов, например, вновь создано завершено, существующее-обновлено.
- Доступность ресурсов, например, в свободном доступе из центра обработки данных.
- Модальность ресурса, например , речь , письмо, язык жестов .
- Использование ресурсов, например , распознавание именованных объектов , идентификация языка , машинный перевод .
- Язык ресурса, например английский, 23 языка Европейского Союза, официальные языки Индии.
Использование
[ редактировать ]Карта LRE — очень важный инструмент для построения карты области НЛП. По сравнению с другими исследованиями, основанными на субъективных оценках, карта LRE составлена из реальных фактов.
Карта имеет большой потенциал для множества применений, помимо того, что она является инструментом сбора информации:
- Это отличный инструмент для мониторинга развития отрасли (полезный для спонсоров), если его применять в разных контекстах и в разное время.
- Это можно рассматривать как огромное совместное усилие, начало еще более масштабного сотрудничества не только между несколькими лидерами, но и между всеми исследователями.
- Это также «образовательное» средство, способствующее широкому признанию необходимости метаисследовательской деятельности с активным участием многих людей.
- Он также играет важную роль во введении нового понятия «цитирование ресурсов», которое могло бы обеспечить награду и средство научного признания для исследователей, занимающихся созданием ресурсов.
- Он используется для помощи в организации отраслевых конференций, таких как LREC .
Производные матрицы
[ редактировать ]Затем данные были очищены и отсортированы Джозефом Мариани (CNRS-LIMSI IMMI) и Гилом Франкопуло (CNRS-LIMSI IMMI + Tagmatica) для вычисления различных матриц окончательного FLaReNet. [11] отчеты. Один из них, матрица письменных данных на LREC 2010, выглядит следующим образом:
Корпус | Лексикон | Онтология | Грамматика/Язык Модель | Терминология | |
---|---|---|---|---|---|
болгарский | 7 | 6 | 1 | 1 | 1 |
чешский | 12 | 7 | 2 | 1 | 1 |
датский | 6 | 2 | 0 | 2 | 0 |
Голландский | 17 | 8 | 2 | 1 | 2 |
Английский | 206 | 77 | 18 | 11 | 10 |
эстонский | 3 | 1 | 0 | 0 | 1 |
финский | 3 | 2 | 0 | 1 | 0 |
Французский | 44 | 24 | 3 | 4 | 5 |
немецкий | 43 | 15 | 4 | 2 | 3 |
Греческий | 10 | 3 | 2 | 0 | 0 |
венгерский | 8 | 4 | 0 | 1 | 1 |
ирландский | 1 | 0 | 0 | 0 | 0 |
итальянский | 32 | 16 | 4 | 2 | 0 |
латышский | 9 | 0 | 0 | 0 | 1 |
литовский | 4 | 0 | 2 | 0 | 1 |
мальтийский | 1 | 0 | 0 | 1 | 0 |
Польский | 7 | 2 | 1 | 2 | 1 |
португальский | 19 | 6 | 1 | 1 | 0 |
румынский | 12 | 7 | 1 | 1 | 0 |
словацкий | 2 | 0 | 0 | 1 | 0 |
Словенский | 5 | 1 | 0 | 0 | 0 |
испанский | 29 | 19 | 4 | 5 | 2 |
Шведский | 19 | 4 | 0 | 1 | 0 |
Другая Европа | 19 | 11 | 3 | 3 | 2 |
Региональная Европа | 18 | 8 | 0 | 1 | 3 |
Многоязычный | 5 | 3 | 1 | 0 | 1 |
Независимый от языка | 9 | 3 | 16 | 2 | 1 |
Не применимо | 2 | 0 | 2 | 1 | 0 |
Общий | 552 | 229 | 67 | 45 | 36 |
Английский – самый изучаемый язык. Во-вторых, идут французский и немецкий языки, а затем итальянский и испанский.
Будущее
[ редактировать ]Карта LRE расширена до языковых ресурсов и журнала оценки. [12] и другие конференции.
Ссылки
[ редактировать ]- ^ Николетта Кальцолари, Клаудия Сория, Риккардо Дель Гратта, Сара Гогги, Валерия Куочи, Ирен Руссо, Халид Шукри, Джозеф Мариани, Стелиос Пиперидис, 2010 Карта языковых ресурсов и технологий LREC. ЛРЭЦ-2010, Мальта
- ^ Технический отчет FlaReNet, карта языковых ресурсов и оценки (LRE), Николетта Кальцолари (CNR-ILC Пиза, Италия), Клаудия Сориа, Ирен Руссо, Франческо Рубино, Риккардо Дель Гратта. проект eContentPlus [1]
- ^ Николетта Кальцолари, Представление председателя конференции LREC 2010
- ^ 7-е издание Конференции по языковым ресурсам и оценке, Валлетта, Мальта.
- ^ 23-я Международная конференция по компьютерной лингвистике, Пекин, Китай [2]
- ^ Эмпирические методы обработки естественного языка, 9–11 октября, Статистический центр Массачусетского технологического института, Кембридж, Массачусетс, США [3]. Архивировано 11 февраля 2012 г. в Wayback Machine.
- ^ Последние достижения в области обработки естественного языка, 12–14 сентября, Хисар, Болгария [4]
- ^ 8-я конференция по языковым ресурсам и оценке, Стамбул, Турция.
- ^ 9-е издание Конференции по языковым ресурсам и оценке, Рейкьявик, Исландия.
- ^ 10-я конференция по языковым ресурсам и оценке, Порторож, Словения.
- ^ FLaReNet (Сеть развития языковых ресурсов) - это проект, финансируемый ЕС, который призван разработать общее видение области языковых ресурсов и языковых технологий на следующие годы и способствовать развитию европейской стратегии консолидации сектора и повышения конкурентоспособности на уровне ЕС и во всем мире.
- ^ Журнал языковых ресурсов и оценки под ред. Спрингер