Jump to content

ИндоВордНет

ИндоВордНет [1] представляет собой связанную лексическую базу знаний словесных сетей 18 зарегистрированных языков Индии , а именно ассамского, бангла, бодо, гуджарати, хинди, каннада, кашмири, конкани, малаялам, мейтей (манипури), маратхи, непальского, одиа, пенджаби. , санскрит, тамильский, телугу и урду.

Дравидийский WordNet — этоWordNet для дравидских языков. [2]

В начале 90-х годов в Принстонском университете Джорджем Миллером и Кристианой Феллбаум была создана сеть слов для английского языка под названием Princeton WordNet , которая в 2006 году получила престижную премию Замполи. [3] Затем последовала EuroWordNet — конгломерация словесных сетей европейских языков, созданная в 1998 году. [4] Сети Wordnet теперь являются важными ресурсами для обработки естественного языка , извлечения информации , устранения неоднозначности смысла слов и других вычислений, связанных с текстом.

Важность индийских языков

[ редактировать ]

Индийские языки составляют очень важную часть языкового ландшафта мира. На Индийском субконтиненте действуют четыре потока языковой типологии: индоевропейский, дравидийский, тибето-бирманский и австроазиатский. [5] Многие языки входят в десятку лучших в мире по численности населения, говорящего на них, например, хинди-урду — 5-е, бангла — 7-е, маратхи — 12-е и так далее согласно Списку языков по количеству носителей языка . Таким образом, создание сетей слов на индийских языках является очень важным научно-техническим и лингвистическим проектом.

Генезис словесных сетей на индийском языке

[ редактировать ]

Такой проект действительно стартовал в 2000 году, когда группа обработки естественного языка в Центре технологий индийского языка (CFILT) на факультете компьютерных наук и инженерии ИИТ Бомбея создала Hindi WordNet . [6] Он стал общедоступным в 2006 году по лицензии GNU. Сеть WordNet на хинди была создана при поддержке проекта TDIL Министерства связи и информационных технологий Индии, а также частично Министерства развития человеческих ресурсов Индии.

Затем этому примеру последовали сети Wordnet на других языках Индии. Крупный общенациональный проект по созданию сети слов на индийском языке назывался проектом IndoWordNet. ИндоВордНет [1] представляет собой связанную лексическую базу знаний словесных сетей 18 зарегистрированных языков Индии , а именно ассамского, бангла, бодо, гуджарати, хинди, каннада, кашмири, конкани, малаялам, мейтей, маратхи, непальского, ория, пенджаби, санскрита, тамильского, Телугу и урду. Сети слов создаются с использованием подхода расширения WordNet на хинди. Сеть WordNet на хинди была создана на основе основных принципов (упомянутых ниже) и стала первой сетью слов для индийского языка. Принятый метод был таким же, как и в Princeton WordNet для английского языка.

Польский WordNet сопоставляется с Princeton WordNet на основе стратегии, которой придерживается IndoWordNet. [7]

Принципы построения wordnet

[ редактировать ]

Сети слов следуют принципам минимальности, охвата и заменяемости синсетов. Это означает, что в синсете должен быть по крайней мере «основной» набор лексем, которые однозначно определяют понятие, представленное синсетом (минимальность), например, {дом, семья}, обозначающее понятие «семья» («она из знатного дома»). Тогда синсет должен охватывать ВСЕ слова, представляющие понятие в языке (охват), например, слово «ménage» должно появиться в «семейном» синсете, хотя и ближе к концу синсета, поскольку оно используется редко. . Наконец, слова в начале синсета должны иметь возможность заменять друг друга в разумном количестве корпусов (заменяемость), например, «дом» и «семья» могут заменять друг друга в предложении «она из благородного дома». .

Статистика сетей слов на индийском языке

[ редактировать ]

Количество синсетов (по состоянию на август 2014 г.) на языках и институтах, создающих языковые сети WordNet, указано ниже:

Язык Синсеты институт
Ассамский 14958 Университет Гувахати , Гувахати , Ассам
Бенгальский 36346 Индийский статистический институт , Калькутта , Западная Бенгалия
Они будут 15785 Университет Гувахати , Гувахати , Ассам
Гуджарати 35599 Университет Дхарамсинха Десаи , Надиад , Гуджарат
Неа 38607 ИИТ Бомбей , Мумбаи , Махараштра
Каннада 20033 Майсурский университет , Майсур , Карнатака
Кашмири 29469 Кашмирский университет , Сринагар , Джамму и Кашмир
Конкани 32370 Университет Гоа , Талейгао , Гоа
малаялам 30060 Университет Амрита , Коимбатур , Тамил Наду
Маратхи 29674 ИИТ Бомбей , Мумбаи , Махараштра
Мэйтей 16351 Университет Манипура , Импхал , Манипур
непальский 11713 Университет Ассама , Силчар , Ассам
Ория 35284 Центральный университет Хайдарабада , Хайдарабад , Андхра-Прадеш
панджаби 32364 Университет Тапар и Пенджабский университет , Патиала , Пенджаб
санскрит 23140 ИИТ Бомбей , Мумбаи , Махараштра
тамильский 25431 Тамильский университет , Танджавур , Тамил Наду
телугу 21925 Дравидийский университет , Куппам , Андхра-Прадеш
Урду 34280 Университет Джавахарлала Неру , Нью-Дели

Краткое содержание

[ редактировать ]

IndoWordNet очень похож на EuroWordNet . Однако основным языком является хинди, который, конечно же, связан с английским WordNet. типичные явления индийского языка, такие как сложные предикаты и причинные глаголы В IndoWordNet также отражены .

IndoWordNet доступен для публичного просмотра. Усилия по созданию сети WordNet на индийском языке, составляющие подкомпоненты проекта IndoWordNet, включают: проект North East WordNet, проект Dravidian WordNet и проект Indradhanush, все из которых финансируются проектом TDIL.

  1. ^ Jump up to: а б Пушпак Бхаттачарья, IndoWordNet, Конференция по разработке лексических ресурсов 2010 (LREC 2010), Мальта, май 2010 г.
  2. ^ https://www.amrita.edu/publication/building-wordnet-dravidian-languages. [ мертвая ссылка ]
  3. ^ Кристиана Феллбаум (редактор), WordNet: электронная лексическая база данных, MIT Press, 1998.
  4. ^ П. Воссен (редактор), EuroWordNet: многоязычная база данных с лексико-семантическими сетями, Kluwer Pub., 1998.
  5. ^ Джозеф Э. Шварцберг, Британская энциклопедия , Индия — лингвистический состав , 2007.
  6. ^ Дипак Нараян, Дебасри Чакрабарти, Прабхакар Панде и П. Бхаттачария. Опыт создания Indo WordNet - WordNet для хинди, Международная конференция по глобальной WordNet (GWC 02), Майсур, Индия, январь 2002 г.
  7. ^ Рудницка Э., Мазиарц М., Пясецкий М. и Шпакович С. (2012). Сопоставление plWordNet с Princeton WordNet, 24-я Международная конференция по компьютерной лингвистике (COLING), Индия, декабрь 2012 г.
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 35b895d93ecbee98aca08e746cfeb0be__1718213100
URL1:https://arc.ask3.ru/arc/aa/35/be/35b895d93ecbee98aca08e746cfeb0be.html
Заголовок, (Title) документа по адресу, URL1:
IndoWordNet - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)