Открытое извлечение информации - Open information extraction

При обработке естественного языка извлечение открытой информации (МЭБ) - это задача создания структурированного машиночитаемого представления информации в тексте, обычно в виде троек или n-арных предложения.

Обзор

Предложение можно понимать как носитель правды, текстовое выражение потенциального факт (например, «Данте написал Божественную комедию»), представленный в удобной для компьютеров структуре [например, («Данте», «написал», «Божественная комедия»)]. Извлечение МЭБ обычно состоит из отношения и набора аргументов. Например, («Данте», «скончался в» «Равенна») - это утверждение, образованное отношением «скончался в» и аргументами «Данте» и «Равенна». Первый аргумент обычно упоминается как субъект, а второй - как объект.^[1]

Извлечение считается текстовым представлением потенциального факта, потому что его элементы не связаны с база знаний. Более того, фактическая природа предложения еще не установлена. В приведенном выше примере для преобразования извлечения в полноценный факт сначала потребуется связать, если возможно, связь и аргументы с базой знаний. Во-вторых, необходимо определить истинность извлечения. В информатике преобразование извлеченных данных МЭБ в онтологические факты известно как извлечение отношения.

Фактически, МЭБ можно рассматривать как первый шаг к широкому кругу задач более глубокого понимания текста, таких как извлечение отношений, построение базы знаний, ответ на вопрос, маркировка семантических ролей. Извлеченные предложения также можно напрямую использовать для приложений конечного пользователя, таких как структурированный поиск (например, извлекать все предложения с «Данте» в качестве темы).

МЭБ был впервые представлен TextRunner^[2] разработан в Вашингтонский университет Центр Тьюринга во главе с Орен Эциони. Другие методы, представленные позже, такие как Reverb,^[3] ОЛЛИ,^[4] Клаузи^[5] или CSD^[6] помог сформировать задачу МЭБ, охарактеризовав некоторые ее аспекты. На высоком уровне все эти подходы используют набор шаблонов для генерации извлечений. В зависимости от конкретного подхода эти шаблоны либо создаются вручную, либо изучаются.

Системы и взносы МЭБ

Реверберация^[3] высказал предположение о необходимости создания значимых отношений для более точного отражения информации во входном тексте. Например, учитывая предложение «Фауст заключил договор с дьяволом», было бы ошибочным просто произвести извлечение («Фауст», «заключенный», «договор»), поскольку оно не было бы достаточно информативным. Более точное извлечение было бы («Фауст», «заключил договор с», «дьявол»). Reverb также выступал против создания сверхспецифических отношений.

ОЛЛИ^[4] подчеркнули два важных аспекта для МЭБ. Во-первых, это указывало на отсутствие фактов в предложениях. Например, в предложении типа «Если Джон усердно учится, он сдаст экзамен», было бы неверно рассматривать («Джон», «сдаст», «экзамен») как факт. Кроме того, авторы указали, что система МЭБ должна иметь возможность извлекать невербальные опосредованные отношения, которые составляют значительную часть информации, выраженной в тексте на естественном языке. Например, в предложении «Обама, бывший президент США родился на Гавайях», система МЭБ должна уметь распознавать суждение («Обама», «есть», «бывший президент США»).

Клаузи^[5] представила связь между грамматическими предложениями, предложениями и извлечениями МЭБ. Авторы заявили, что поскольку каждое грамматическое предложение выражает предложение, каждое предложение, опосредованное глаголом, может быть идентифицировано путем единственного распознавания набора предложений, выраженных в каждом предложении. Это означает, что для правильного распознавания набора предложений во входном предложении необходимо понимать его грамматическую структуру. Авторы изучили этот случай на английском языке, который допускает только семь типов предложений, что означает, что идентификация каждого предложения требует определения только семи грамматических шаблонов.

Открытие также установило разделение между признанием предположений и их материализацией. На первом этапе предложение может быть идентифицировано без рассмотрения его окончательной формы независимым от предметной области и неконтролируемым способом, в основном на основе лингвистических принципов. На втором этапе информация может быть представлена в соответствии с требованиями нижележащего приложения, не обуславливая этап идентификации.

Рассмотрим предложение «Альберт Эйнштейн родился в Ульме и умер в Принстоне». На первом этапе распознаются два утверждения («Альберт Эйнштейн», «родился», «в Ульме») и («Альберт Эйнштейн», «умер», «в Принстоне»). После того, как информация была правильно идентифицирована, предложения могут принять определенную форму, требуемую основным приложением [например, («Альберт Эйнштейн», «родился в», «Ульм») и («Альберт Эйнштейн», «умер в») , «Принстон»)].

CSD^[6] представил идею минимальности в МЭБ. Он считает, что компьютеры могут лучше использовать извлечения, если они представлены в компактном виде. Это особенно важно в предложениях с придаточными предложениями. В этих случаях CSD предлагает создание вложенных извлечений. Например, рассмотрим предложение «Посольство сообщило, что 6700 американцев находились в Пакистане». CSD генерирует два извлечения: [i] («6700 американцев», «были», «в Пакистане») и [ii] («Посольство», «сказал», «тот [i]»). Обычно это называют рефикацией.

Открытое извлечение информации - Open information extraction

Обзор

Системы и взносы МЭБ

Рекомендации