Jump to content

Карта ЖРД

Карта LRE (Языковые ресурсы и оценка) — это свободно доступная большая база данных ресурсов, посвященных обработке естественного языка . Оригинальная особенность LRE Map заключается в том, что записи собираются во время подачи заявок на различные крупные конференции по обработке естественного языка . Затем записи очищаются и собираются в глобальную базу данных под названием «Карта LRE». [1]

Карта LRE предназначена стать инструментом для сбора информации о языковых ресурсах и в то же время стать сообществом для пользователей, местом для обмена и открытия ресурсов, обсуждения мнений, предоставления обратной связи, открытия новых тенденций и т. д. — это инструмент для обнаружения, поиска и документирования языковых ресурсов, который здесь понимается в широком смысле как данные и инструменты.

Большой объем информации, содержащейся на карте, можно анализировать разными способами. Например, карта LRE может предоставить информацию о наиболее часто встречающемся типе ресурсов, наиболее представленном языке, приложениях, для которых ресурсы используются или разрабатываются, пропорции новых ресурсов по сравнению с уже существующими или о том, как ресурсы распределяются среди сообщества.

Контекст

[ редактировать ]

Несколько учреждений по всему миру ведут каталоги языковых ресурсов.(ELRA, LDC , NICT Универсальный каталог ACL , Репозиторий данных и кодов , OLAC , LT World и т. д.) [2] Однако было подсчитано, что только 10% существующих ресурсов известны либо через каталоги распространения, либо через прямую рекламу со стороны поставщиков (веб-сайты и т.п.). Остальное остается скрытым, единственные случаи, когда оно ненадолго всплывает, — это когда ресурс представлен в контексте исследовательской статьи или отчета на какой-либо конференции. Тем не менее, даже в этом случае ресурс может оставаться на заднем плане просто потому, что фокус исследования не сосредоточен на ресурсе как таковом .

Карта LRE возникла под названием «Карта LREC» во время подготовки конференции LREC 2010. [3] В частности, идея обсуждалась в рамках проекта FlaReNet, а в сотрудничестве с ELRA и Институтом компьютерной лингвистики CNR в Пизе Карта была представлена ​​на LREC 2010. [4] Организаторы ЛРЭЦ попросили авторов предоставить некоторую базовую информацию обо всех ресурсах (в широком смысле, т.е. включая инструменты, стандарты и пакеты оценки), использованных или созданных, описанных в их статьях. Все эти дескрипторы затем были собраны в глобальную матрицу, называемую картой LREC.

Та же методология и требования авторов были затем применены и распространены на другие конференции, а именно COLING-2010, [5] ЭМНЛП-2010, [6] РАНЛП-2011, [7] ЛРЭЦ 2012, [8] ЛРЭЦ 2014 [9] и ЛРЭЦ 2016. [10]
После этого обобщения на другие конференции карта LREC была переименована в карту LRE .

Размер и содержание

[ редактировать ]

Размер базы данных со временем увеличивается. Собранные данные составляют 4776 записей.

Каждый ресурс описывается по следующим атрибутам:

Использование

[ редактировать ]

Карта LRE — очень важный инструмент для построения карты области НЛП. По сравнению с другими исследованиями, основанными на субъективных оценках, карта LRE составлена ​​из реальных фактов.

Карта имеет большой потенциал для множества применений, помимо того, что она является инструментом сбора информации:

  • Это отличный инструмент для мониторинга развития отрасли (полезный для спонсоров), если его применять в разных контекстах и ​​в разное время.
  • Это можно рассматривать как огромное совместное усилие, начало еще более масштабного сотрудничества не только между несколькими лидерами, но и между всеми исследователями.
  • Это также «образовательное» средство, способствующее широкому признанию необходимости метаисследовательской деятельности с активным участием многих людей.
  • Он также играет важную роль во введении нового понятия «цитирование ресурсов», которое могло бы обеспечить награду и средство научного признания для исследователей, занимающихся созданием ресурсов.
  • Он используется для помощи в организации отраслевых конференций, таких как LREC .

Производные матрицы

[ редактировать ]

Затем данные были очищены и отсортированы Джозефом Мариани (CNRS-LIMSI IMMI) и Гилом Франкопуло (CNRS-LIMSI IMMI + Tagmatica) для вычисления различных матриц окончательного FLaReNet. [11] отчеты. Один из них, матрица письменных данных на LREC 2010, выглядит следующим образом:

Корпус Лексикон Онтология Грамматика/Язык
Модель
Терминология
болгарский 7 6 1 1 1
чешский 12 7 2 1 1
датский 6 2 0 2 0
Голландский 17 8 2 1 2
Английский 206 77 18 11 10
эстонский 3 1 0 0 1
финский 3 2 0 1 0
Французский 44 24 3 4 5
немецкий 43 15 4 2 3
Греческий 10 3 2 0 0
венгерский 8 4 0 1 1
ирландский 1 0 0 0 0
итальянский 32 16 4 2 0
латышский 9 0 0 0 1
литовский 4 0 2 0 1
мальтийский 1 0 0 1 0
Польский 7 2 1 2 1
португальский 19 6 1 1 0
румынский 12 7 1 1 0
словацкий 2 0 0 1 0
Словенский 5 1 0 0 0
испанский 29 19 4 5 2
Шведский 19 4 0 1 0
Другая Европа 19 11 3 3 2
Региональная Европа 18 8 0 1 3
Многоязычный 5 3 1 0 1
Независимый от языка 9 3 16 2 1
Не применимо 2 0 2 1 0
Общий 552 229 67 45 36

Английский – самый изучаемый язык. Во-вторых, идут французский и немецкий языки, а затем итальянский и испанский.

Карта LRE расширена до языковых ресурсов и журнала оценки. [12] и другие конференции.

  1. ^ Николетта Кальцолари, Клаудия Сория, Риккардо Дель Гратта, Сара Гогги, Валерия Куочи, Ирен Руссо, Халид Шукри, Джозеф Мариани, Стелиос Пиперидис, 2010 Карта языковых ресурсов и технологий LREC. ЛРЭЦ-2010, Мальта
  2. ^ Технический отчет FlaReNet, карта языковых ресурсов и оценки (LRE), Николетта Кальцолари (CNR-ILC Пиза, Италия), Клаудия Сориа, Ирен Руссо, Франческо Рубино, Риккардо Дель Гратта. проект eContentPlus [1]
  3. ^ Николетта Кальцолари, Представление председателя конференции LREC 2010
  4. ^ 7-е издание Конференции по языковым ресурсам и оценке, Валлетта, Мальта.
  5. ^ 23-я Международная конференция по компьютерной лингвистике, Пекин, Китай [2]
  6. ^ Эмпирические методы обработки естественного языка, 9–11 октября, Статистический центр Массачусетского технологического института, Кембридж, Массачусетс, США [3]. Архивировано 11 февраля 2012 г. в Wayback Machine.
  7. ^ Последние достижения в области обработки естественного языка, 12–14 сентября, Хисар, Болгария [4]
  8. ^ 8-я конференция по языковым ресурсам и оценке, Стамбул, Турция.
  9. ^ 9-е издание Конференции по языковым ресурсам и оценке, Рейкьявик, Исландия.
  10. ^ 10-я конференция по языковым ресурсам и оценке, Порторож, Словения.
  11. ^ FLaReNet (Сеть развития языковых ресурсов) - это проект, финансируемый ЕС, который призван разработать общее видение области языковых ресурсов и языковых технологий на следующие годы и способствовать развитию европейской стратегии консолидации сектора и повышения конкурентоспособности на уровне ЕС и во всем мире.
  12. ^ Журнал языковых ресурсов и оценки под ред. Спрингер
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 425d3e597d589abbc47aa30e5b274330__1708988700
URL1:https://arc.ask3.ru/arc/aa/42/30/425d3e597d589abbc47aa30e5b274330.html
Заголовок, (Title) документа по адресу, URL1:
LRE Map - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)