Хамшахри Корпус - Hamshahri Corpus

Логотип Hamshahri Corpus

В Хамшахри Корпус (Персидский: ره همشهری) Является значительным Персидский корпус на основе Иранский газета Хамшахри, одна из первых интернет-газет на персидском языке в Иране. Первоначально он был собран и скомпилирован Эхсаном Дарруди из DBRG Group.^[1] из Тегеранский университет. Позже команда во главе с Але Ахмадом^[2] на основе этого корпуса и создал первую коллекцию персидских текстов, подходящую для задач оценки информационного поиска.

Этот корпус был создан путем сканирования новостных статей в Интернете из Хамшахри веб-сайта и обработки HTML-страниц для создания стандартного текстовый корпус для современных Поиск информации эксперименты.

Версия 1.0

Сборник содержит более 160 000 статей по следующим тематическим категориям: политика, городские новости, экономика, репортажи, редакционные статьи, литература, наука, общество, зарубежные новости, спорт и т. Д. Размер документов варьируется от коротких новостей (до 1 КБ). ) на довольно длинные статьи (например, 140 КБ) со средним размером 1,8 КБ.

Корпус доступен для скачивания в нескольких форматах:^[2]

Текст с тегами: 560 МБ
В таблицах SQL Server 2000: 712 МБ

Версия 2.0

Второй выпуск Hamshahri Corpus был выпущен 20 октября 2008 года. Он предлагает несколько новых функций и улучшений:

Больше новостей: 323 616 текстовых историй в 3206 файлах XML (по одному файлу на каждый день)
Увеличенный временной интервал: с 22 июня 1996 г. по 13 мая 2007 г.
Больше по размеру: 1,42 ГБ без сжатия
Стандартный контейнер: Unicode XML
Включенные изображения: изображения были извлечены из новостей и сохранены (доступны в дополнительном пакете), что делает его пригодным для задач поиска изображений.
Категории новостей: новости были разделены на категории полуавтоматически (подходит для задач категоризации и классификации текста).

Корпус доступен для скачивания в формате XML.

Смотрите также

внешняя ссылка

[1] Новости DBRG Группа исследования баз данных

[ham-2] а ^б Хамшахри Группа исследования баз данных

[1]

[2]

Корпусная лингвистика
Текстовые корпуса, английский	Американский национальный корпус Банк английского языка Бергенский корпус лондонского подросткового языка Британский национальный корпус Коричневый корпус Buckeye Corpus Cambridge English Corpus Корпус современного американского английского Enron Corpus EnTenTen Международный корпус английского языка Ланкастер-Осло-Берген Корпус Oxford English Corpus PropBank Разговорный английский корпус ТИМИТ VerbNet Веллингтонский корпус разговорного новозеландского английского языка
Корпуса текстов, не на английском языке	Bijankhan Corpus ДЕТИ CorCenCC - Национальный корпус современного валлийского языка Корпус хорватского языка Хорватский национальный корпус Чешский национальный корпус Europarl Corpus Немецкий справочный корпус Хамшахри Корпус Национальный корпус польского языка Проект корпуса неоасирийских текстов Коранический арабский корпус Русский Национальный Корпус Шотландский корпус текстов и речи Словенский национальный корпус TalkBank Татоеба Tehran Monolingual Corpus Tekstaro de Esperanto Семья TenTen Corpus Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD Sketch Engine

Хамшахри Корпус - Hamshahri Corpus

Содержание

Версия 1.0

Версия 2.0

Смотрите также

Рекомендации

внешняя ссылка