Устранение неоднозначности границы предложения - Sentence boundary disambiguation

Устранение неоднозначности границы предложения (SBD), также известен как нарушение приговора, определение границ предложения, и сегментация предложения, проблема в обработка естественного языка решения, где фразы начало и конец. Инструменты обработки естественного языка часто требуют, чтобы их вводимые данные были разделены на предложения; однако идентификация границ предложения может быть сложной задачей из-за потенциальной двусмысленности знаки препинания. В письменный английский, а период может обозначать конец предложения или может обозначать сокращение, а десятичная точка, многоточие, или адрес электронной почты, среди других возможностей. Около 47% периодов в Wall Street Journal корпус обозначают сокращения.[1] Вопросительные знаки и восклицательные знаки может быть столь же неоднозначным из-за использования в смайлики, компьютерный код, и сленг.

Некоторые языки, включая японский и китайский, имеют однозначные маркеры окончания предложения.

Стратегии

Стандарт 'ваниль 'подход, чтобы найти конец предложения:[требуется разъяснение ]

(а) Если это точка, она заканчивает предложение.
(b) Если предыдущий токен находится в вручную скомпилированном Список сокращений, то это не конец предложения.
(c) Если следующий токен написан с заглавной буквы, он завершает предложение.

Эта стратегия дает правильные примерно 95% предложений.[2] Такие вещи, как сокращенные имена, например "Д. Х. Лоуренс " (с участием пробелы между отдельными словами, образующими полное имя), своеобразное орфографическое написание, используемое в стилистических целях (часто относящееся к одной концепции, например, название развлекательного продукта, например ".hack // ЗНАК ") и использование нестандартной пунктуации (или нестандартное использование из пунктуация) в тексте часто попадает под оставшиеся 5%.

Другой подход состоит в том, чтобы автоматически изучить набор правил из набора документов, в которых разрывы предложений отмечены заранее. Решения основывались на модель максимальной энтропии.[3] В SATZ архитектура использует нейронную сеть для устранения неоднозначности границ предложения и обеспечивает точность 98,5%.

Программного обеспечения

Примеры использования Perl-совместимого обычные выражения ("PCRE ")
  • ((?<=[a-z0-9] [.?!])|(?<=[a-z0-9] [.?!]")) (s |) (? ="?[А-Я])
  • $ предложения = preg_split("/(?, $ text, -1, PREG_SPLIT_DELIM_CAPTURE); (для PHP )
Использование в Интернете, библиотеки и API
Наборы инструментов, которые включают обнаружение предложений

Смотрите также

использованная литература

  1. ^ E. STAMATATOS; Н. ФАКОТАКИС, Г. КОККИНАКИС. «1 АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ПРАВИЛ ПРЕДОСТАВЛЕНИЯ ГРАНИЦ ДИСАМБИГУАЦИИ». Университет Патры. Получено 2009-01-03.
  2. ^ О'Нил, Джон. «Работа со словами, часть вторая: определение границ предложения». Получено 2009-01-03.
  3. ^ Рейнар, JC; Ратнапархи, А. «Максимально энтропийный подход к определению границ предложений» (PDF). Получено 2009-01-03.

внешние ссылки