Тегеранский одноязычный корпус
Тегеранский одноязычный корпус (TMC) — это крупномасштабный персидский одноязычный корпус. TMC подходит для языкового моделирования и соответствующих областей исследований в области обработки естественного языка .
Корпус взят с сайта Hamshahri Corpus и информационного агентства ISNA . Качество корпуса Хамшахри улучшается для целей языкового моделирования за счет ряда шагов токенизации и проверки орфографии.
TMC содержит более 250 миллионов слов. Общее количество уникальных слов (с частотой два и более) корпуса составляет около 300 тысяч, что относительно неплохо для такого высокофлективного языка, как персидский.
TMC создан Лабораторией обработки естественного языка Тегеранского университета . Корпус бесплатен для исследовательского использования после получения разрешения от агрегатора корпуса.