Корпус Биджанхана

Корпус Биджанхана ( персидский : پیکرهٔ بیجنخان ) — это размеченный корпус , который подходит для исследования обработки естественного языка (НЛП) на персидском языке . Эта коллекция собрана из ежедневных новостей и общих текстов. В этой коллекции все документы распределены по различным темам, таким как политические, культурные и т. д.; примерно по 4300 различным тематическим категориям. Корпус содержит около 2,6 миллионов слов, помеченных вручную, с набором тегов, содержащим 550 тегов персидских частей речи .
Корпус Биджанхана был создан исследовательской группой баз данных университета Тегеранского . [1] Корпус не является свободным в том смысле, что его нельзя использовать в коммерческих целях, хотя эти ограничения различаются в зависимости от страны . Корпус Биджанхана назван в честь Махмуда Биджанхана , профессора лингвистики Тегеранского университета, за его вклад в эту область.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «Группа исследования баз данных» . Архивировано из оригинала 15 мая 2017 г. Проверено 25 декабря 2016 г.
Внешние ссылки
[ редактировать ]- [1] .