Корпус Биджанхана

Корпус Биджанхана ( персидский : پیکرهٔ بی‌جن‌خان ) — это размеченный корпус , который подходит для исследования обработки естественного языка (НЛП) на персидском языке . Эта коллекция собрана из ежедневных новостей и общих текстов. В этой коллекции все документы распределены по различным темам, таким как политические, культурные и т. д.; примерно по 4300 различным тематическим категориям. Корпус содержит около 2,6 миллионов слов, помеченных вручную, с набором тегов, содержащим 550 тегов персидских частей речи .

Корпус Биджанхана был создан исследовательской группой баз данных университета Тегеранского . ^[1] Корпус не является свободным в том смысле, что его нельзя использовать в коммерческих целях, хотя эти ограничения различаются в зависимости от страны . Корпус Биджанхана назван в честь Махмуда Биджанхана , профессора лингвистики Тегеранского университета, за его вклад в эту область.

См. также

Ссылки

^ «Группа исследования баз данных» . Архивировано из оригинала 15 мая 2017 г. Проверено 25 декабря 2016 г.

Внешние ссылки

[1] .

Эта статья о библиотеке незавершена . цифровой Вы можете помочь Википедии, расширив ее .

Эта индоевропейским языкам, статья, посвященная незавершена . Вы можете помочь Википедии, расширив ее .

[1] «Группа исследования баз данных» . Архивировано из оригинала 15 мая 2017 г. Проверено 25 декабря 2016 г.

[1]

v т и Корпусная лингвистика
Текстовые корпуса, Английский	Американский национальный корпус Банк английского языка Бергенский корпус Лондонского языка подростков Британский национальный корпус Коричневый Корпус Бакай Корпус Кембриджский корпус английского языка Корпус современного американского английского языка Энрон Корпус ЭнТенТен Международный корпус английского языка Корпус Ланкастер-Осло-Берген Оксфордский корпус английского языка ПропБанк Разговорный корпус английского языка Коммутационный телефонный речевой корпус ТИОН ВербНет Веллингтонский корпус разговорного новозеландского английского языка
Текстовые корпуса, неанглоязычный	Корпус Биджанхана ЧАЙЛДС CorCenCC Национальный корпус современного валлийского языка Корпус хорватского языка Хорватский национальный корпус Чешский национальный корпус Корпус Европарла Справочный корпус немецкого языка Корпус Хамшахри Национальный корпус польского языка Проект неоассирийского текстового корпуса Персидский речевой корпус Коранический арабский корпус Русский национальный корпус Шотландский корпус текстов и речи Словенский национальный корпус TalkBank Татоэба Тегеранский одноязычный корпус Учебник эсперанто Семья Корпуса ТенТен Тезаурус греческого языка
Организации	Консорциум БНК КОБИЛД Эскизный движок