Автоматическое получение корпусов с метками смысла - Automatic acquisition of sense-tagged corpora

В приобретение знаний узкое место, возможно, является основным препятствием для решения значение смысла слова (WSD) проблема. Обучение без учителя методы полагаются на знания о значениях слов, которые почти не сформулированы в словарях и лексических базах данных. Контролируемое обучение методы сильно зависят от существования вручную аннотированных примеров для каждого смысла слова, что до сих пор быть встреченным только для нескольких слов в целях тестирования, как это сделано в Senseval упражнения.

Существующие методы

Поэтому одна из самых многообещающих тенденций в исследованиях WSD - это использование самого большого из когда-либо доступных, Всемирная сеть, для автоматического получения лексической информации.[1] WSD традиционно понимается как технология разработки промежуточного языка, которая может улучшить такие приложения, как поиск информации (ИК). В этом случае, однако, верно и обратное: поисковые машины в Интернете реализуют простые и надежные методы IR, которые можно успешно использовать при добыче информации в Интернете для использования в WSD.

Самый простой способ использования Интернета (и других корпус ) для повышения производительности WSD является автоматическое получение корпусов с тегами смысла, основного ресурса для кормления под наблюдением Алгоритмы WSD. Хотя это далеко не обычное явление в литературе по WSD, уже был предложен ряд различных эффективных стратегий для достижения этой цели. Вот некоторые из этих стратегий:

Резюме

Оптимистичные результаты

Рассмотренное автоматическое извлечение примеров для обучения алгоритмов контролируемого обучения, безусловно, является наиболее изученным подходом к поиску в сети для устранения неоднозначности слов. Некоторые результаты, безусловно, обнадеживают:

  • В некоторых экспериментах качество веб-данных для WSD равно качеству примеров, помеченных людьми. Это случай моносемейных родственников плюс бутстреп с техникой Семкор Семкор[2] и примеры взяты из каталогов ODP Web.[3] В первом случае, однако, необходимы примеры семян размером с Semcor (и доступны только для английского языка), и он был протестирован только с очень ограниченным набором существительных; во втором случае охват весьма ограничен, и пока не ясно, можно ли его расширить без ущерба для качества полученных примеров.
  • Было показано[4] что основная техника контролируемого обучения, обученная исключительно с использованием веб-данных, может дать лучшие результаты, чем все неконтролируемые системы WSD, которые участвовали в Senseval-2.
  • Веб-примеры внесли значительный вклад в лучшую словесную систему английского языка Senseval-2.[5]

Сложности

Однако есть несколько открытых исследовательских проблем, связанных с использованием веб-примеров в WSD:

  • Высокая точность извлеченных примеров (т. Е. Правильное назначение смысла для примеров) не обязательно приводит к хорошим контролируемым результатам WSD (т. Е. Примеры, возможно, бесполезны для обучения).[6]
  • Наиболее полная оценка веб-примеров для контролируемых WSD[7] указывает на то, что обучение с использованием веб-данных улучшается по сравнению с неконтролируемыми методами, но результаты, тем не менее, далеки от результатов, полученных с помеченными вручную данными, и даже не превышают базовый уровень наиболее часто встречающегося смысла.
  • Результаты не всегда воспроизводимы; одинаковые или похожие методы могут привести к разным результатам в разных экспериментах. Сравните, например, Mihalcea (2002).[8]) с Агирре и Мартинесом (2004 г.[9]), или Агирре и Мартинес (2000[10]) с Михалчей и Молдован (1999 г.[11]). Результаты с веб-данными кажутся очень чувствительными к небольшим различиям в алгоритме обучения, к тому, когда был извлечен корпус (поисковые системы постоянно меняются), и к небольшим эвристическим проблемам (например, различия в фильтрах для отбрасывания части извлеченных примеров).
  • Результаты сильно зависят от систематической ошибки (т. Е. От относительной частоты примеров на смысл слова).[12] Неясно, является ли это просто проблемой веб-данных, или внутренней проблемой методов контролируемого обучения, или просто проблемой того, как оцениваются системы WSD (действительно, тестирование с довольно небольшими данными Senseval может переоценить смысловые распределения по сравнению с полученными смысловыми распределениями. из всей сети в виде корпуса).
  • В любом случае у веб-данных есть внутренняя предвзятость, потому что запросы к поисковым системам напрямую ограничивают контекст полученных примеров. Существуют подходы, которые решают эту проблему, например использование нескольких разных начальных значений / запросов на каждый смысл.[13] или присвоение смысла веб-каталогам, а затем сканирование каталогов для примеров;[14] но эта проблема все же далека от решения.
  • После создания корпуса веб-примеров не совсем ясно, безопасно ли его распространение с юридической точки зрения.

Будущее

Помимо автоматического получения примеров из Интернета, есть еще несколько экспериментов с WSD, которые извлекли выгоду из Интернета:

  • Интернет как социальная сеть успешно используется для совместная аннотация корпуса (OMWE, проект Open Mind Word Expert),[15] который уже использовался в трех задачах Senseval-3 (английский, румынский и многоязычный).
  • Интернет был использован для обогащения смысла WordNet информацией о предметной области: подписями тем[16] и веб-каталоги,[17] которые, в свою очередь, успешно использовались для WSD.
  • Кроме того, некоторые исследования извлекли пользу из семантической информации о том, что Википедия поддерживает на своем страницы значений.[18][19]

Ясно,[согласно кому? ] тем не менее, большинство исследовательских возможностей остаются в значительной степени неизученными. Например, мало что известно о том, как использовать лексическую информацию, извлеченную из Интернета, в системах WSD, основанных на знаниях; Кроме того, трудно найти системы, использующие параллельные корпуса, разработанные для WSD, даже при том, что уже существуют эффективные алгоритмы, использующие параллельные корпуса в WSD.

использованная литература

  1. ^ Килгаррифф, А .; Г. Грефенштетте. 2003 г. Введение в специальный выпуск в Интернете в виде корпуса. Компьютерная лингвистика 29 (3)
  2. ^ Михалча, Рада. 2002. Самозагрузка корпуса с тегами большого смысла. Труды конференции по языковым ресурсам и оценке (LREC), Лас-Пальмас, Испания.
  3. ^ Сантамария, Селина, Хулио Гонсало и Фелиса Вердехо. 2003. Автоматическая привязка веб-каталогов к значениям слов. Компьютерная лингвистика, 29 (3): 485–502.
  4. ^ Агирре, Энеко и Давид Мартинес. 2004. Неконтролируемый WSD на основе автоматически извлекаемых примеров: важность предвзятости. Труды конференции по эмпирическим методам обработки естественного языка (EMNLP), Барселона, Испания, 25–33.
  5. ^ Михалча, Рада. 2002a. Устранение неоднозначности слов с изучением шаблонов и автоматическим выбором функций. Инженерия естественного языка, 8 (4): 348–358.
  6. ^ Агирре, Энеко и Давид Мартинес. 2000. Изучение автоматического устранения неоднозначности смысла слов с помощью списков решений и Интернета. Материалы семинара COLING по семантической аннотации и интеллектуальной аннотации, Люксембург, 11–19.
  7. ^ Агирре, Энеко и Давид Мартинес. 2004. Неконтролируемый WSD на основе автоматически извлеченных примеров: важность предвзятости. Труды конференции по эмпирическим методам обработки естественного языка (EMNLP), Барселона, Испания, 25–33.
  8. ^ Михалча, Рада. 2002b. Самозагрузка большого смысла с тегами корпусов. Труды конференции по языковым ресурсам и оценке (LREC), Лас-Пальмас, Испания.
  9. ^ Агирре, Энеко и Давид Мартинес. 2004. Неконтролируемый WSD на основе автоматически извлекаемых примеров: важность предвзятости. Труды конференции по эмпирическим методам обработки естественного языка (EMNLP), Барселона, Испания, 25–33.
  10. ^ Агирре, Энеко и Давид Мартинес. 2000. Изучение автоматического устранения неоднозначности смысла слов с помощью списков решений и Интернета. Труды семинара COLING по семантической аннотации и интеллектуальной аннотации, Люксембург, 11–19.
  11. ^ Михалча, Рада и Дан Молдован. 1999. Автоматический метод создания корпусов с тегами смысла. Труды Американской ассоциации искусственного интеллекта (AAAI), Орландо, США, 461–466.
  12. ^ Агирре, Энеко и Давид Мартинес. 2004 г. Неконтролируемый WSD на основе автоматически извлеченных примеров: важность предвзятости. Труды конференции по эмпирическим методам обработки естественного языка (EMNLP), Барселона, Испания, 25–33.
  13. ^ Михалча, Рада. 2002b. Самозагрузка большого смысла с тегами корпусов. Труды конференции по языковым ресурсам и оценке (LREC), Лас-Пальмас, Испания.
  14. ^ Сантамария, Селина, Хулио Гонсало и Фелиса Вердехо. 2003. Автоматическая привязка веб-каталогов к значениям слов. Компьютерная лингвистика, 29 (3): 485–502.
  15. ^ Чкловски, Тим и Рада Михалча. 2002. Создание смыслового корпуса с помощью Open Mind Word Expert. Материалы семинара ACL SIGLEX по устранению неоднозначности слов: недавние успехи и будущие направления, Филадельфия, США, 116–122.
  16. ^ Агирре, Энеко, Олатц Анса, Эдуард Х. Хови и Давид Мартинес. 2000. Обогащение очень больших онтологий с помощью WWW. Труды семинара по изучению онтологии, Европейская конференция по искусственному интеллекту (ECAI), Берлин, Германия.
  17. ^ Сантамария, Селина, Хулио Гонсало и Фелиса Вердехо. 2003. Автоматическая привязка веб-каталогов к значениям слов. Компьютерная лингвистика, 29 (3): 485–502.
  18. ^ Денис Турдаков, Павел Велихов. Показатель семантического родства для концепций Википедии на основе анализа ссылок и его применение для устранения неоднозначности слов // SYRCoDIS.— 2008.
  19. ^ Турдаков Денис. Устранение лексической многозначности терминов Википедии на основе скрытой модели Маркова // XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» .— 2009. pdf (русский)