ИндоВордНет
ИндоВордНет [1] представляет собой связанную лексическую базу знаний словесных сетей 18 зарегистрированных языков Индии , а именно ассамского, бангла, бодо, гуджарати, хинди, каннада, кашмири, конкани, малаялам, мейтей (манипури), маратхи, непальского, одиа, пенджаби. , санскрит, тамильский, телугу и урду.
Дравидийский WordNet — этоWordNet для дравидских языков. [2]
Фон
[ редактировать ]В начале 90-х годов в Принстонском университете Джорджем Миллером и Кристианой Феллбаум была создана сеть слов для английского языка под названием Princeton WordNet , которая в 2006 году получила престижную премию Замполи. [3] Затем последовала EuroWordNet — конгломерация словесных сетей европейских языков, созданная в 1998 году. [4] Сети Wordnet теперь являются важными ресурсами для обработки естественного языка , извлечения информации , устранения неоднозначности смысла слов и других вычислений, связанных с текстом.
Важность индийских языков
[ редактировать ]Индийские языки составляют очень важную часть языкового ландшафта мира. На Индийском субконтиненте действуют четыре потока языковой типологии: индоевропейский, дравидийский, тибето-бирманский и австроазиатский. [5] Многие языки входят в десятку лучших в мире по численности населения, говорящего на них, например, хинди-урду — 5-е, бангла — 7-е, маратхи — 12-е и так далее согласно Списку языков по количеству носителей языка . Таким образом, создание сетей слов на индийских языках является очень важным научно-техническим и лингвистическим проектом.
Генезис словесных сетей на индийском языке
[ редактировать ]Такой проект действительно стартовал в 2000 году, когда группа обработки естественного языка в Центре технологий индийского языка (CFILT) на факультете компьютерных наук и инженерии ИИТ Бомбея создала Hindi WordNet . [6] Он стал общедоступным в 2006 году по лицензии GNU. Сеть WordNet на хинди была создана при поддержке проекта TDIL Министерства связи и информационных технологий Индии, а также частично Министерства развития человеческих ресурсов Индии.
Затем этому примеру последовали сети Wordnet на других языках Индии. Крупный общенациональный проект по созданию сети слов на индийском языке назывался проектом IndoWordNet. ИндоВордНет [1] представляет собой связанную лексическую базу знаний словесных сетей 18 зарегистрированных языков Индии , а именно ассамского, бангла, бодо, гуджарати, хинди, каннада, кашмири, конкани, малаялам, мейтей, маратхи, непальского, ория, пенджаби, санскрита, тамильского, Телугу и урду. Сети слов создаются с использованием подхода расширения WordNet на хинди. Сеть WordNet на хинди была создана на основе основных принципов (упомянутых ниже) и стала первой сетью слов для индийского языка. Принятый метод был таким же, как и в Princeton WordNet для английского языка.
Польский WordNet сопоставляется с Princeton WordNet на основе стратегии, которой придерживается IndoWordNet. [7]
Принципы построения wordnet
[ редактировать ]Сети слов следуют принципам минимальности, охвата и заменяемости синсетов. Это означает, что в синсете должен быть по крайней мере «основной» набор лексем, которые однозначно определяют понятие, представленное синсетом (минимальность), например, {дом, семья}, обозначающее понятие «семья» («она из знатного дома»). Тогда синсет должен охватывать ВСЕ слова, представляющие понятие в языке (охват), например, слово «ménage» должно появиться в «семейном» синсете, хотя и ближе к концу синсета, поскольку оно используется редко. . Наконец, слова в начале синсета должны иметь возможность заменять друг друга в разумном количестве корпусов (заменяемость), например, «дом» и «семья» могут заменять друг друга в предложении «она из благородного дома». .
Статистика сетей слов на индийском языке
[ редактировать ]Количество синсетов (по состоянию на август 2014 г.) на языках и институтах, создающих языковые сети WordNet, указано ниже:
Краткое содержание
[ редактировать ]IndoWordNet очень похож на EuroWordNet . Однако основным языком является хинди, который, конечно же, связан с английским WordNet. типичные явления индийского языка, такие как сложные предикаты и причинные глаголы В IndoWordNet также отражены .
IndoWordNet доступен для публичного просмотра. Усилия по созданию сети WordNet на индийском языке, составляющие подкомпоненты проекта IndoWordNet, включают: проект North East WordNet, проект Dravidian WordNet и проект Indradhanush, все из которых финансируются проектом TDIL.
Ссылки
[ редактировать ]- ^ Jump up to: а б Пушпак Бхаттачарья, IndoWordNet, Конференция по разработке лексических ресурсов 2010 (LREC 2010), Мальта, май 2010 г.
- ^ https://www.amrita.edu/publication/building-wordnet-dravidian-languages. [ мертвая ссылка ]
- ^ Кристиана Феллбаум (редактор), WordNet: электронная лексическая база данных, MIT Press, 1998.
- ^ П. Воссен (редактор), EuroWordNet: многоязычная база данных с лексико-семантическими сетями, Kluwer Pub., 1998.
- ^ Джозеф Э. Шварцберг, Британская энциклопедия , Индия — лингвистический состав , 2007.
- ^ Дипак Нараян, Дебасри Чакрабарти, Прабхакар Панде и П. Бхаттачария. Опыт создания Indo WordNet - WordNet для хинди, Международная конференция по глобальной WordNet (GWC 02), Майсур, Индия, январь 2002 г.
- ^ Рудницка Э., Мазиарц М., Пясецкий М. и Шпакович С. (2012). Сопоставление plWordNet с Princeton WordNet, 24-я Международная конференция по компьютерной лингвистике (COLING), Индия, декабрь 2012 г.