Хамшахри Корпус - Hamshahri Corpus
В Хамшахри Корпус (Персидский: ره همشهری) Является значительным Персидский корпус на основе Иранский газета Хамшахри, одна из первых интернет-газет на персидском языке в Иране. Первоначально он был собран и скомпилирован Эхсаном Дарруди из DBRG Group.[1] из Тегеранский университет. Позже команда во главе с Але Ахмадом[2] на основе этого корпуса и создал первую коллекцию персидских текстов, подходящую для задач оценки информационного поиска.
Этот корпус был создан путем сканирования новостных статей в Интернете из Хамшахри веб-сайта и обработки HTML-страниц для создания стандартного текстовый корпус для современных Поиск информации эксперименты.
Версия 1.0
Сборник содержит более 160 000 статей по следующим тематическим категориям: политика, городские новости, экономика, репортажи, редакционные статьи, литература, наука, общество, зарубежные новости, спорт и т. Д. Размер документов варьируется от коротких новостей (до 1 КБ). ) на довольно длинные статьи (например, 140 КБ) со средним размером 1,8 КБ.
Корпус доступен для скачивания в нескольких форматах:[2]
- Текст с тегами: 560 МБ
- В таблицах SQL Server 2000: 712 МБ
Версия 2.0
Второй выпуск Hamshahri Corpus был выпущен 20 октября 2008 года. Он предлагает несколько новых функций и улучшений:
- Больше новостей: 323 616 текстовых историй в 3206 файлах XML (по одному файлу на каждый день)
- Увеличенный временной интервал: с 22 июня 1996 г. по 13 мая 2007 г.
- Больше по размеру: 1,42 ГБ без сжатия
- Стандартный контейнер: Unicode XML
- Включенные изображения: изображения были извлечены из новостей и сохранены (доступны в дополнительном пакете), что делает его пригодным для задач поиска изображений.
- Категории новостей: новости были разделены на категории полуавтоматически (подходит для задач категоризации и классификации текста).
Корпус доступен для скачивания в формате XML.
Смотрите также
Рекомендации
- ^ Новости DBRG Группа исследования баз данных
- ^ а б Хамшахри Группа исследования баз данных