Национальный корпус польского языка - Википедия - National Corpus of Polish
В Национальный корпус польского языка (Польский: Narodowy Korpus Języka Polskiego NKJP) - самый большой и самый важный корпус из Польский язык. Лингвистический корпус - это набор текстов, в котором можно найти типичное использование одного слова или фразы, а также их значение и грамматическую функцию.
Описание
Национальный корпус польского языка - это совместная инициатива четырех учреждений: Института компьютерных наук и Института польского языка Польская Академия Наук, Польские научные издательства PWN и кафедра компьютерной и корпусной лингвистики Лодзинский университет. Он зарегистрирован как научно-исследовательский проект Министерство науки и высшего образования.
Предполагаемый размер всего Национального корпуса польского языка составляет более 1 миллиарда слов, из которых подкорпус в 300 миллионов слов был тщательно сбалансирован, а 1 миллионный корпус с ручными аннотациями был выпущен по открытой лицензии. Корпус доступен в Интернете по адресу http://nkjp.pl/poliqarp/
Корпус содержит классическую литературу, ежедневные газеты, специализированные периодические издания и журналы, стенограммы разговоров, а также различные кратковременные и интернет-тексты.[1]
Поисковые системы
- PELCRA - 1200 миллионов слов из трех корпусов: IPIPAN, PELCRA, PWN. Его легко использовать, а результаты можно загрузить в виде электронных таблиц. Особый синтаксис запроса также позволяет использовать морфологическое расширение и орфографию, поиск в одном запросе и гибкие лексические фразеологические соединения. PELCRA также предлагает визуализацию функции реестра и создание временных рядов для слов, фраз и идиом.
- ПОЛИКАРП - Poliqarp дает возможность искать определенные слова или фразы. Это также позволяет найти последовательность, определенную с помощью регулярных выражений, например, все встречающиеся в теле фраз, состоящих из существительного и прилагательного, или всех грамматических форм выбранного слова (особенно полезно для изучения польского языка). Эти операции, как онлайн, так и офлайн, могут быть выполнены довольно быстро - например, простые поисковые запросы занимают не более нескольких секунд.
История
Первый корпус был разработан Институтом польского языка, Польская Академия Наук (не является общедоступным), за которым следует корпус издателей PWN, затем корпус группы PELCRA в Лодзинском университете и, наконец, корпус Института компьютерных наук Польской академии наук. Все четыре команды решили объединить усилия в 2006 году, сформировав Консорциум Национального корпуса польского языка.[2]