PlWordNet - Википедия - PlWordNet
plWordNet лексико-семантический база данных из Польский язык. Он включает в себя наборы синонимичные лексические единицы (синсеты ) с последующими краткими определениями. plWordNet служит тезаурусом-словарем, в котором представлены концепции (синсеты) и значения отдельных слов (лексические единицы ) определяются своим положением в сети взаимоотношений, отражающей лексико-семантическую систему польского языка.[1] plWordNet также используется как один из основных ресурсов для построения обработка естественного языка инструменты для польского.[1]
История
plWordNet разрабатывается в Вроцлавский технологический университет. Работы выполнены компанией The WrocUT. Группа языковых технологий G4.19 с 2005 г.[2] финансируется Министерством науки и высшего образования и ЕС. тезаурус был построен «с нуля» лексикографами и инженерами естественного языка.[3] Первая версия plWordNet была опубликована в 2009 году - она содержала 20 223 лемм, 26 990 лексических единиц и 17 695 синсетов.[4] Самая последняя версия, plWordNet 2.2, был доступен 13 мая 2014 г.
Содержание
В настоящее время plWordNet содержит 148k леммы, 207 тыс. Лексических единиц и 151 тыс. Синсетов.[5] Он уже перерос Princeton WordNet по количеству лексических единиц. plWordNet состоит из существительные (116к), глаголы (18k) и прилагательные (13к).[5] Каждое значение данного слова - это отдельная лексическая единица. Единицы, представляющие одно и то же понятие и существенно не отличающиеся стилистическим регистром, объединены в синсеты - наборы синонимов, каждая лексическая единица отнесена к одной из доменов (семантических категорий), что указывает на ее общее значение. Домены plWordNet соответствуют Princeton WordNet файлы лексикографов.
Семантические категории в plWordNet
Существительные домены[6] | Глагольные домены[7] | Прилагательные домены[8] |
---|---|---|
|
|
|
Описание лексической единицы
Некоторые лексические единицы снабжены информацией о стилистическом регистре, кратким определением, примерами использования и ссылкой на соответствующую статью в Википедии.
имя существительное | миасто | город, город | ||
---|---|---|---|---|
домен | miejsce i umiejscowienie | место и местонахождение | ||
определение | Duży, gęsto zabudowany i zaludniony teren posiadający odrębną administrację; miejsce ycia ludzi pracujących w przemyśle lub usługach | большая, густонаселенная территория с отдельной администрацией; место проживания людей, работающих в промышленности или сфере услуг | ||
пример | W mieście człowiek ma większą szansę na zrobienie kariery i zarobienie pieniędzy, choć jednocześnie łatwiej tam niż na wsi popaść w ubóstwo. | Сделать карьеру в городе намного проще, чем в деревне, но и попасть в бедность намного легче. |
Самыми важными элементами, определяющими значения слов, являются: лексико-семантические и словообразовательные отношения, которые сохраняются между синсетами и между лексическими единицами. Один синсет группирует такие лексические единицы, которые имеют один и тот же набор отношений.[9] На основе отношений, присвоенных синсетам и единицам, инструменты для обработки естественного языка могут сделать вывод о значении леммы, что важно, например, в словесная неоднозначность.
Отношения между избранными существительными[9]
Связь | Тест | Пример |
---|---|---|
синонимия |
| {kot2; kot domowy1}, 'кошка, домашняя кошка' |
межрегистровая синонимия |
| {chłopiec1}, {gówniarz1}, 'мальчик, ~ сопляк, брызги' |
гипо- / гипернимия |
| {buk1} jest rodzajem {drzewo liściaste1} , "Бук" это своего рода 'лиственное дерево' |
меро- / холонимия |
| {poduszka powietrzna1} jest częścią {samochód1}, 'воздушная подушка' является частью 'машина' |
Польские синсеты связаны с соответствующими синонимами Princeton WordNet с помощью набора межъязыковых лексико-семантических отношений (таких как, например, синонимия, частичная синонимия, гипонимия ). На данный момент отображено 91 578 синсетов (что составляет примерно 2/3 синсетов plWordNet, среди которых в основном существительные).[10] Отображение позволяет применять plWordNet в машинный перевод, например в онлайн-сервисе, предлагаемом переводчик Google.
Приложения
plWordNet доступен на открытый доступ лицензия, позволяя свободный просмотр. Он был предоставлен пользователям в виде онлайн словарь, мобильное приложение и веб-сервисы. Некоторое применение plWordNet:
- конструирование и разработка инструментов для автоматическая языковая обработка,
- словесная неоднозначность (WSD),
- автоматическая классификация текстов,
- машинный перевод,
- афазия лечение,
- Польско-английский и англо-польский словарь,
- Семантический словарь польского языка,
- словарь синонимы и тезаурус,
- словарь антонимы.
Рекомендации
- ^ а б http://plwordnet.pwr.wroc.pl/wordnet/about
- ^ Мазиарц М., Пясецки М., Шпакович С., Приближение к plWordNet 2.0, http://nlp.pwr.wroc.pl/ltg/files/publications/paper%2042.pdf
- ^ http://nlp.pwr.wroc.pl/plwordnet/download/?lang=eng
- ^ Пясецки М., Шпакович С., Брода Б., Wordnet с нуля, Вроцлав 2009, с. 170, http://www.plwordnet.pwr.wroc.pl/main/content/files/publications/A_Wordnet_from_the_Ground_Up.pdf
- ^ а б Подробную сравнительную статистику plWN и PWN можно найти на веб-странице plWN: http://plwordnet.pwr.wroc.pl/wordnet/stats [доступ: 30.06.2014]
- ^ Rabiega-Wiśniewska J., Maziarz M., Piasecki M., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Rzeczownik, s. 4.
- ^ Hojka B., Maziarz M., Piasecki M., Rabiega-Wiśniewska J., Szpakowicz S., Opis relacji leksykalno-semantycznych w Słowosieci 2.0. Czasownik, s. 15-16.
- ^ Мазиарц М., Шпакович С., Пясецки М., Семантические отношения между прилагательными в польском WordNet 2.0: новый набор отношений, обсуждение и оценка, Когнитивные исследования / Études Cognitives, т. 12, с. 149–179, 2012.
- ^ а б Maziarz M., Piasecki M., Szpakowicz S., Rabiega-Wiśniewska J., Семантические отношения между существительными в польской Wordnet, основанные на лексикографической и семантической традиции, Когнитивные исследования / Études Cognitives, t, 11, s. 161-181, 2011.
- ^ http://plwordnet.pwr.wroc.pl/wordnet/stats [доступ: 30.05.2014]