Jump to content

Корпус Хамшахри

Логотип Корпуса Хамшахри

Корпус Хамшахри ( персидский : پیکره همشهری ) — это значительный персидский корпус, основанный на иранской газете «Хамшахри» , одной из первых онлайн-газет на персидском языке в Иране. Первоначально он был собран и составлен Эхсаном Дарруди из DBRG Group. [1] университета Тегеранского . Позже команду возглавил Абольфазл Але-Ахмад. [2] построен на этом корпусе и создал первую коллекцию персидских текстов, подходящую для задач оценки поиска информации .

Этот корпус был создан путем сканирования новостных статей с веб-сайта Хамшахри и обработки HTML-страниц для создания стандартного текстового корпуса для современных экспериментов по поиску информации.

Версия 1.0

[ редактировать ]

Сборник содержит более 160 000 статей по следующим тематическим категориям: политика, городские новости, экономика, репортажи, редакционные статьи, литература, наука, общество, зарубежные новости, спорт и т. д. Размер документов варьируется от коротких новостей (до 1 КБ). ) до довольно длинных статей (например, 140 КБ) со средним размером 1,8 КБ.

Корпус доступен для скачивания в нескольких форматах: [2]

  • Текст с тегами: 560 МБ
  • В таблицах SQL Server 2000: 712 МБ.

Версия 2.0

[ редактировать ]

Вторая версия Hamshahri Corpus была выпущена 20 октября 2008 года. Она предлагает несколько новых функций и улучшений:

  • Дополнительные новости: 323 616 текстовых историй в 3206 XML-файлах (по одному файлу на каждый день)
  • Увеличенный временной интервал: с 22 июня 1996 г. по 13 мая 2007 г.
  • Больше по размеру: 1,42 ГБ без сжатия.
  • Стандартный контейнер: Unicode XML
  • Включенные изображения: изображения были извлечены из новостей и сохранены (доступны в дополнительном пакете), что делает их пригодными для задач поиска изображений.
  • Новости по категориям: новости распределяются по категориям полуавтоматически (подходит для задач категоризации и классификации текста ).

Корпус доступен для скачивания в формате XML.

См. также

[ редактировать ]
  1. ^ Новости DBRG. Архивировано 15 мая 2017 г. в Wayback Machine. исследовательской группе базы данных
  2. ^ Jump up to: а б Хамшахри. Архивировано 14 мая 2017 г. в Wayback Machine. исследовательской группе базы данных
[ редактировать ]


Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 0b9adf8ff071b77ae88ef6ee4872001c__1688343960
URL1:https://arc.ask3.ru/arc/aa/0b/1c/0b9adf8ff071b77ae88ef6ee4872001c.html
Заголовок, (Title) документа по адресу, URL1:
Hamshahri Corpus - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)