Тегеранский одноязычный корпус

Эта статья не цитирует какие-либо источники . Пожалуйста, помогите улучшить эту статью , добавив цитаты на надежные источники . Неиспользованный материал может быть оспорен и удален .
Найти источники: «Тегеранский одноязычный корпус» – новости · газеты · книги · ученый · JSTOR ( декабрь 2010 г. ) ( Узнайте, как и когда удалить это сообщение )

Тегеранский одноязычный корпус (TMC) — это крупномасштабный персидский одноязычный корпус. TMC подходит для языкового моделирования и соответствующих областей исследований в области обработки естественного языка .

Корпус взят с сайта Hamshahri Corpus и информационного агентства ISNA . Качество корпуса Хамшахри улучшается для целей языкового моделирования за счет ряда шагов токенизации и проверки орфографии.

TMC содержит более 250 миллионов слов. Общее количество уникальных слов (с частотой два и более) корпуса составляет около 300 тысяч, что относительно неплохо для такого высокофлективного языка, как персидский.

TMC создан Лабораторией обработки естественного языка Тегеранского университета . Корпус бесплатен для исследовательского использования после получения разрешения от агрегатора корпуса.

См. также

[ редактировать ]

Внешние ссылки

[ редактировать ]

Страница описания ТМС

v т и Корпусная лингвистика
Текстовые корпуса, Английский	Американский национальный корпус Банк английского языка Бергенский корпус Лондонского языка подростков Британский национальный корпус Коричневый корпус Бакай Корпус Кембриджский корпус английского языка Корпус современного американского английского языка Энрон Корпус ЭнТенТен Международный корпус английского языка Корпус Ланкастер-Осло-Берген Оксфордский корпус английского языка ПропБанк Разговорный корпус английского языка Коммутационный телефонный речевой корпус ТИОН ВербНет Веллингтонский корпус разговорного новозеландского английского языка
Текстовые корпуса, неанглоязычный	Корпус Биджанхана ЧАЙЛДС CorCenCC Национальный корпус современного валлийского языка Корпус хорватского языка Хорватский национальный корпус Чешский национальный корпус Корпус Европарла Справочный корпус немецкого языка Корпус Хамшахри Национальный корпус польского языка Проект неоассирийского текстового корпуса Персидский речевой корпус Коранический арабский корпус Русский национальный корпус Шотландский корпус текстов и речи Словенский национальный корпус TalkBank Татоэба Тегеранский одноязычный корпус Учебник эсперанто Семья Корпуса ТенТен Тезаурус греческого языка
Организации	Консорциум БНК КОБИЛД Эскизный движок