Универсальные зависимости - Universal Dependencies

Универсальные зависимости, часто сокращенно UD, это международный совместный проект по созданию берега деревьев языков мира. Эти деревья открыты и доступны. Основные приложения автоматизированы обработка текста в области обработка естественного языка (НЛП) и исследования синтаксиса и грамматики естественного языка, особенно в лингвистическая типология. Основная цель проекта - достичь кросс-лингвистической согласованности аннотаций, при этом позволяя при необходимости расширять языковые расширения. Схема аннотаций основана на трех связанных проектах: Stanford Dependencies,[1]Универсальные теги части речи Google,[2], и Interset interlingua[3] для морфосинтаксических наборов тегов. Схема аннотации UD использует представление в виде деревья зависимостей в отличие от деревья структуры фраз. В настоящее время (февраль 2019 г.) в инвентаре UD доступно чуть более 100 групп деревьев на более чем 70 языках.

Структуры зависимости

Схема аннотации UD производит синтаксический анализ предложений с точки зрения зависимостей грамматики зависимостей. Каждая зависимость характеризуется синтаксической функцией, которая отображается с помощью метки на границе зависимости. Например:[4]

Первая фотография UD

Этот анализ показывает, что она, ему, и заметка являются иждивенцами осталось. Местоимение она определяется как именное подлежащее (nsubj), местоимение ему как косвенный объект (iobj) и именная фраза заметка как прямой объект (obj) - существует еще одна зависимость, которая связывает а к Примечание, хотя это и не показано. Второй пример:

UD изображение 2

Этот анализ определяет Это как субъект (nsubj), является как связка (коп), и для как маркер падежа (падеж), все они показаны как зависимые от корневого слова ее, которое является местоимением. Следующий пример включает ненормативную лексику и наклонный объект:

UD изображение 3

Этот анализ определяет Там как ругательство (изл.), еда как именной предмет (nsubj), кухня как наклонный объект (обл), и в как кейс-маркер (case) - также существует зависимость, соединяющая то к кухня, но это не показано. Обратите внимание, что связка является в этом случае позиционируется как корень предложения, что противоречит тому, как связка анализируется во втором примере чуть выше, где она позиционируется как зависимая от корня.

Приведенные примеры аннотаций UD, конечно, могут дать только представление о характере проекта UD и его схеме аннотаций. Упор для UD делается на проведении кросс-лингвистически согласованного анализа зависимостей, чтобы способствовать структурному параллелизму между разными языками. С этой целью UD использует универсальный набор тегов POS для всех языков, хотя для данного языка не обязательно использовать каждый тег. Более конкретная информация может быть добавлена ​​к каждому слову с помощью бесплатного морфо-синтаксического набора функций. Универсальные метки ссылок зависимости могут быть указаны с помощью вторичных отношений, которые указываются как вторичные метки после двоеточия, например nsubj: пройти, следуя формат "универсальный: расширение".

Функциональные слова

В сообществе разработчиков грамматики зависимостей схема аннотаций UD вызывает споры. Главное яблоко раздора касается анализа служебных слов. UD предпочитает подчинять служебные слова словам содержания,[5] практика, которая противоречит большинству работ в традиции грамматики зависимостей.[6] Чтобы вкратце проиллюстрировать это противоречие, UD представил следующий структурный анализ данного предложения:

Четвертое изображение UD, иллюстрирующее анализ служебных слов.

Этот пример взят из статьи Вот.[7] Теперь используется альтернативное соглашение для отображения зависимостей, отличное от соглашения выше. Поскольку синтаксические функции не важны для рассматриваемого вопроса, они исключены из этого структурного анализа. Что важно, так это то, как этот UD-анализ подчиняет вспомогательный глагол будем к содержательному глаголу сказать, предлог к к местоимению ты, подчиненный это к содержательному глаголу нравится, а частица к к содержательному глаголу плавать.

Более традиционный анализ грамматики зависимостей этого предложения, который мотивирован больше синтаксическими соображениями, чем семантическими, выглядит так:[8]

UD изображение 5

Этот традиционный анализ подчиняет глагол содержания сказать к вспомогательному глаголу будем, местоимение ты к предлогу к, глагол содержания нравится подчиненному это, и глагол содержания плавать к причастию к.

Заметки

  1. ^ «Стэнфордский зависимый». nlp.stanford.edu. Стэнфордская группа обработки естественного языка. Получено 8 мая 2020.
  2. ^ Петров, Славян (11 апреля 2011 г.). «Универсальный набор тегов для части речи». arXiv:1104.2086 [cs.CL ].
  3. ^ «Интерсет». cuni.cz. Институт формальной и прикладной лингвистики (Чехия). Получено 8 мая 2020.
  4. ^ Три примера анализа, представленные в этом разделе, были взяты с веб-страницы UD. Вот, примеры 3, 21 и 23.
  5. ^ Выбор был сделан на Nivre (2015).
  6. ^ Споры вокруг UD и статуса служебных слов в грамматике зависимостей в целом подробно обсуждаются в Осборн и Гердес (2019).
  7. ^ Структура (1b) в статье Osborne & Gerdes (2019).
  8. ^ Эта структура представлена ​​(1c) в статье Osborne & Gerdes (2019).

использованная литература

  • де Марнеф, Мари-Катрин, Билл Маккартни и Кристофер Д. Мэннинг. 2006. Генерация типизированного синтаксического анализа зависимости из синтаксического анализа структуры фразы. В материалах конференции по языковым ресурсам и оценке (LREC) 2006, 449–454. Генуя.
  • де Марнеф, Мари-Катрин и Кристофер Д. Мэннинг. 2008. Стэнфордское типизированное представление зависимостей. Материалы семинара COLING по оценке кросс-фреймворка и междоменного синтаксического анализатора, 92–97. София. DOI: https://doi.org/10.3115/1608858.1608859
  • де Марнеф, Мари-Катрин, Тимоти Дозат, Наталья Сильвер, Катрин Хаверинен, Филип Гинтер, Жоаким Нивр, Кристофер Д. Мэннинг. 2014. Универсальные зависимости Стэнфорда: кросс-лингвистическая типология. В Международной конференции по языковым ресурсам и оценке (LREC) 2014, 4585–4592.
  • Нивр, Иоаким. 2015. На пути к универсальной грамматике для обработки естественного языка. CICLING 2015: 16-я Международная конференция по интеллектуальной обработке текстов и компьютерной лингвистике, 3-16. DOI: https://doi.org/10.1007/978-3-319-18111-0_1
  • Осборн, Тимоти и Ким Гердес. 2019. Статус служебных слов в грамматике зависимостей: критика универсальных зависимостей (UD). Glossa: A Journal of General Linguistics 4 (1), 17. DOI: http://doi.org/10.5334/gjgl.537.
  • Петров, Славян, Дипон Дас и Райан Макдональд. 2012. Универсальный набор тегов для части речи. Международная конференция по языковым ресурсам и оценке (LREC) 2012, 2089–2096. Стамбул.
  • Земан, Даниэль. 2008. Многоразовое преобразование набора тегов с помощью драйверов набора тегов. В Международной конференции по языковым ресурсам и оценке (LREC) 2008, 213–218. Марракеш.