Сегментация текста - Text segmentation

Сегментация текста это процесс разделения письменного текста на значимые единицы, такие как слова, фразы, или же темы. Термин применяется как к мыслительный процесс используется людьми при чтении текста, а также для искусственных процессов, реализованных в компьютерах, которые являются предметом обработка естественного языка. Проблема нетривиальна, потому что, хотя некоторые письменные языки имеют явные маркеры границы слова, такие как пространство слов письменного английского языка и отличительные начальные, средние и конечные буквы формы арабский, такие сигналы иногда неоднозначны и присутствуют не во всех письменных языках.

Сравнивать сегментация речи, процесс разделения речи на лингвистически значимые части.

Проблемы сегментации

Сегментация слов

Сегментация слов - это проблема разделения строки письменной речи на составляющие ее слова.

На английском и многих других языках с использованием некоторой формы Латинский алфавит, то Космос является хорошим приближением к разделитель слов (слово разделитель ), хотя это понятие имеет ограничения из-за разнообразия языков эмоционально внимание словосочетания и соединения. Много Английские составные существительные переменно записываются (например, ледяной ящик = ледяной ящик = ледяной ящик; свинарник = свинарник = свинарник ) с соответствующим изменением того, думают ли говорящие о них как о существительные фразы или единственные существительные; Существуют тенденции в том, как устанавливаются нормы, например, открытые соединения часто имеют тенденцию к застыванию в соответствии с широко распространенными соглашениями, но вариации остаются системными. В отличие, Немецкие составные существительные имеют меньшую орфографическую вариативность, а затвердевание - более сильная норма

Однако эквивалент символа пробела слова не встречается во всех письменных сценариях, и без него сегментация слов представляет собой сложную проблему. Языки, в которых нет тривиального процесса сегментации слов, включают китайский, японский, где фразы но не слова разграничены, Тайский и Лаосский, где разделены фразы и предложения, но не слова, и вьетнамский, где разделены слоги, но не слова.

Однако в некоторых системах письма, таких как Геэз сценарий используется для Амхарский и Тигринья среди других языков слова явно разделяются (по крайней мере, исторически) символами, не являющимися пробелами.

В Консорциум Unicode опубликовал Стандартное приложение по сегментации текста,[1] изучение вопросов сегментации в мультискриптовых текстах.

Разделение слов это процесс разбор соединенный текст (т.е. текст, который не содержит пробелов или других разделителей слов), чтобы определить, где существуют разрывы слов.

Разделение слов может также относиться к процессу перенос.

Намеренная сегментация

Намеренная сегментация - это проблема разделения написанных слов на ключевые фразы (2 или более группы слов).

В английском и всех других языках основное намерение или желание идентифицируется и становится краеугольным камнем ключевой фразы сегментации намерений. Основной продукт / услуга, идея, действие или мысль закрепляют ключевую фразу.

"[Все вещи сделаны из атомы]. [Маленький частицы этот ход] [вечно движение], [привлечение каждого Другой] [когда они маленькие расстояние отдельно], [но отталкивающий] [будучи сжатый] [в друг друга]."

Сегментация предложения

Сегментация предложения - это проблема разделения строки письменной речи на ее составляющие. фразы. На английском и некоторых других языках с использованием знаков препинания, особенно полная остановка Символ / точка является разумным приближением. Однако даже в английском языке эта проблема не является тривиальной из-за использования символа точки для сокращений, которые могут или не могут также завершать предложение. Например, Мистер. не является его собственным предложением в "Мистер Смит ходил по магазинам на Джонс-стрит ». При обработке обычного текста таблицы сокращений, содержащие точки, могут помочь предотвратить неправильное назначение границ предложений.

Как и в случае сегментации слов, не все письменные языки содержат знаки препинания, которые полезны для приближения границ предложения.

Тематическая сегментация

Тематический анализ состоит из двух основных задач: определение темы и сегментация текста. Хотя первый простой классификация конкретного текста, последний случай подразумевает, что документ может содержать несколько тем, и задача компьютерной сегментации текста может заключаться в автоматическом обнаружении этих тем и соответствующем сегментировании текста. Границы темы могут быть видны из заголовков разделов и абзацев. В остальных случаях необходимо использовать приемы, аналогичные тем, которые используются в классификация документов.

Сегментирование текста на темы или же дискурс повороты могут быть полезны в некоторых задачах естественной обработки: это может улучшить поиск информации или же распознавание речи значительно (путем более точного индексирования / распознавания документов или предоставления в результате определенной части документа, соответствующей запросу). Это также необходимо в обнаружение темы и системы слежения и текст резюме проблемы.

Было испробовано много разных подходов:[2][3] например ХМ, лексические цепочки, сходство отрывков с использованием слова совпадение, кластеризация, тематическое моделирование, так далее.

Это довольно неоднозначная задача - люди, оценивающие системы сегментации текста, часто различаются по тематическим границам. Следовательно, оценка текстового сегмента также является сложной задачей.

Другие проблемы сегментации

Процессы могут потребоваться для сегментации текста на сегменты помимо упомянутых, включая морфемы (задача обычно называется морфологический анализ ) или же абзацы.

Подходы к автоматической сегментации

Автоматическая сегментация - это проблема обработка естественного языка реализации компьютерного процесса для сегментации текста.

Когда знаки препинания и аналогичные подсказки не всегда доступны, задача сегментации часто требует довольно нетривиальных методов, таких как принятие статистических решений, большие словари, а также учет синтаксических и семантических ограничений. Эффективные системы обработки естественного языка и инструменты сегментации текста обычно работают с текстом в определенных областях и источниках. Например, обработка текста, используемого в медицинских записях, представляет собой совсем другую проблему, чем обработка новостных статей или рекламы недвижимости.

Процесс разработки инструментов сегментации текста начинается со сбора большого корпуса текста в домене приложения. Есть два общих подхода:

  • Ручной анализ текста и написание нестандартного ПО
  • Аннотируйте образец корпуса информацией о границах и используйте машинное обучение

Некоторые системы сегментации текста используют любую разметку, например HTML, и знают форматы документов, такие как PDF, чтобы предоставить дополнительные доказательства границ предложений и абзацев.

Смотрите также

Рекомендации

  1. ^ UAX # 29
  2. ^ Фредди Ю. Ю. Чой (2000). «Достижения в области линейной сегментации текста» (PDF). Труды 1-го заседания Североамериканского отделения Ассоциации компьютерной лингвистики (ANLP-NAACL-00). С. 26–33.
  3. ^ Джеффри К. Рейнар (1998). «Тематическая сегментация: алгоритмы и приложения» (PDF). IRCS-98-21. Пенсильванский университет. Получено 8 ноября 2007. Цитировать журнал требует | журнал = (помощь)