Устранение неоднозначности границы предложения - Sentence boundary disambiguation
Устранение неоднозначности границы предложения (SBD), также известен как нарушение приговора, определение границ предложения, и сегментация предложения, проблема в обработка естественного языка решения, где фразы начало и конец. Инструменты обработки естественного языка часто требуют, чтобы их вводимые данные были разделены на предложения; однако идентификация границ предложения может быть сложной задачей из-за потенциальной двусмысленности знаки препинания. В письменный английский, а период может обозначать конец предложения или может обозначать сокращение, а десятичная точка, многоточие, или адрес электронной почты, среди других возможностей. Около 47% периодов в Wall Street Journal корпус обозначают сокращения.[1] Вопросительные знаки и восклицательные знаки может быть столь же неоднозначным из-за использования в смайлики, компьютерный код, и сленг.
Некоторые языки, включая японский и китайский, имеют однозначные маркеры окончания предложения.
Стратегии
Стандарт 'ваниль 'подход, чтобы найти конец предложения:[требуется разъяснение ]
- (а) Если это точка, она заканчивает предложение.
- (b) Если предыдущий токен находится в вручную скомпилированном Список сокращений, то это не конец предложения.
- (c) Если следующий токен написан с заглавной буквы, он завершает предложение.
Эта стратегия дает правильные примерно 95% предложений.[2] Такие вещи, как сокращенные имена, например "Д. Х. Лоуренс " (с участием пробелы между отдельными словами, образующими полное имя), своеобразное орфографическое написание, используемое в стилистических целях (часто относящееся к одной концепции, например, название развлекательного продукта, например ".hack // ЗНАК ") и использование нестандартной пунктуации (или нестандартное использование из пунктуация) в тексте часто попадает под оставшиеся 5%.
Другой подход состоит в том, чтобы автоматически изучить набор правил из набора документов, в которых разрывы предложений отмечены заранее. Решения основывались на модель максимальной энтропии.[3] В SATZ архитектура использует нейронную сеть для устранения неоднозначности границ предложения и обеспечивает точность 98,5%.
Программного обеспечения
- Примеры использования Perl-совместимого обычные выражения ("PCRE ")
((?<=[a-z0-9] [.?!])|(?<=[a-z0-9] [.?!]")) (s |) (? ="?[А-Я])
$ предложения = preg_split("/(?, $ text, -1, PREG_SPLIT_DELIM_CAPTURE);
(для PHP )
- Использование в Интернете, библиотеки и API
- sent_detector - Ява
- Lingua-EN-Sentence - перл
- Sentence.pm - перл
- SATZ - Адаптивная система сегментации предложений - Дэвид Д. Палмер - C
- Наборы инструментов, которые включают обнаружение предложений
Смотрите также
- Расстояние между предложениями
- Разделитель слов
- Слогификация
- Пунктуация
- Сегментация текста
- Сегментация речи
- Извлечение приговора
- Память переводов
- Выражение из нескольких слов
использованная литература
- ^ E. STAMATATOS; Н. ФАКОТАКИС, Г. КОККИНАКИС. «1 АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ПРАВИЛ ПРЕДОСТАВЛЕНИЯ ГРАНИЦ ДИСАМБИГУАЦИИ». Университет Патры. Получено 2009-01-03.
- ^ О'Нил, Джон. «Работа со словами, часть вторая: определение границ предложения». Получено 2009-01-03.
- ^ Рейнар, JC; Ратнапархи, А. «Максимально энтропийный подход к определению границ предложений» (PDF). Получено 2009-01-03.