BulPosCor - BulPosCor
В Болгарская часть аннотированного речевого корпуса (BulPosCor) (в болгарский: Български Пос анотиран корпус (БулПосКор)) морфологически аннотированный общий одноязычный корпус письменного языка, где каждому элементу текста присваивается грамматический тег. BulPosCor создается Кафедра компьютерной лингвистики на Институт болгарского языка из Болгарская академия наук и состоит из 174 697 лексических элементов. BulPosCor был составлен из структурированного «коричневого» корпуса болгарского языка путем выборки более 300 отрывков слов (расширенных до границы предложения) из исходных файлов BCB таким образом, чтобы сохранить общую структуру BCB . Процесс аннотации состоит из первичного этапа автоматического присвоения тегов из болгарского грамматического словаря и этапа ручного разрешения морфологических двусмысленностей. Устраненный неоднозначный корпус состоит из 174 697 лексических единиц.
Доступ
Рекомендации
Коева, Св. Граматичен Речник на Балгарский язык.Описание на концепцию за организацию на лингвистичните данные. (Грамматический словарь болгарского языка.), В: Български език, 6, 1998, с. 49-58.Коева Св., Св. Лесева, И. Стоянова, Е. Тарпоманова, М. Тодорова. Болгарские корпуса с тегами, Материалы пятой Международной конференции «Формальные подходы к южнославянским и балканским языкам», 18–20 октября 2006 г., София, Болгария, стр. 78–86. Тодорова, Мария, Росица Декова. Balgarski POS anotiran korpus - особенности на грамматична анотация. (Болгарский аннотированный корпус POS - особенности грамматической аннотации) в: Езикови ресурсы и технологии за български език. Състав. и научн. ред. Св. Коева, Д. Благоева, Т. Тинчев. София: Академично издателство «Марин Дринов», 2014.
Смотрите также
внешняя ссылка
Этот компьютерная лингвистика -связанная статья является заглушка. Вы можете помочь Википедии расширяя это. |