Сегментация речи - Speech segmentation

Сегментация речи это процесс определения границ между слова, слоги, или же фонемы в разговорной речи естественные языки. Термин применяется как к умственный процессы, используемые людьми, и искусственные процессы обработка естественного языка.

Речевая сегментация - это подполе общего восприятие речи и важная подзадача технологически ориентированной области распознавание речи, и не может быть адекватно решена изолированно. Как и в большинстве обработка естественного языка проблемы, нужно учитывать контекст, грамматика, и семантика, и даже в этом случае результат часто вероятностный деление (статистически основанное на вероятности), а не категориальное. Хотя кажется, что коартикуляция - явление, которое может происходить между соседними словами так же легко, как и в пределах одного слова - представляет собой главную проблему при сегментации речи по языкам; некоторые другие проблемы и стратегии, используемые для решения этих проблем, можно увидеть в следующих разделах.

Эта проблема до некоторой степени перекликается с проблемой сегментация текста это встречается в некоторых языках, которые традиционно пишутся без межсловных пробелов, например Китайский и Японский, в сравнении с системы письма которые указывают на сегментацию речи между словами разделитель слов, такой как Космос. Однако даже для этих языков сегментация текста часто намного проще, чем сегментация речи, потому что письменный язык обычно мало влияет на соседние слова и часто содержит дополнительные подсказки, которых нет в речи (например, использование китайские иероглифы основы слова в японском языке).

Лексическое распознавание

В естественных языках значение сложного устного предложения можно понять, разложив его на более мелкие лексические сегменты (грубо говоря, слова языка), связав значение с каждым сегментом и комбинируя эти значения в соответствии с грамматическими правилами языка. .

Хотя считается, что лексическое распознавание не используется младенцами в первый год их жизни из-за их очень ограниченного словарного запаса, это один из основных процессов, связанных с сегментацией речи у взрослых. В текущих исследованиях существуют три основные модели лексического распознавания: во-первых, доступ к целому слову, в котором утверждается, что слова имеют представление целого слова в лексиконе; во-вторых, декомпозиция, которая утверждает, что морфологически сложные слова разбиваются на их морфемы (корни, стебли, интонации и т. д.), а затем интерпретируются и; в-третьих, мнение о том, что используются как модели целого слова, так и модели декомпозиции, но что модель целого слова обеспечивает некоторые вычислительные преимущества и, следовательно, доминирует в лексическом распознавании.[1]

Например, в модели из целого слова слово «кошки» может храниться и искать его по букве, сначала «с», затем «са», «кошка» и, наконец, «кошки». То же слово в декомпозиционной модели, вероятно, будет храниться под корневым словом «кошка», и его можно будет искать после удаления суффикса «s». «Падение», аналогичным образом, будет сохранено как «падение» и дополнено интонацией «ing».[2]

Хотя сторонники декомпозиционной модели признают, что анализ морфем за морфемами может потребовать значительно большего объема вычислений, они утверждают, что распаковка морфологической информации необходима для других процессов (таких как синтаксическая структура ), который может происходить параллельно с лексическим поиском.

В целом, исследования систем лексического распознавания человека ограничены из-за небольшого количества экспериментальных данных, которые полностью различают три основные модели.[1]

В любом случае лексическое распознавание, вероятно, значительно способствует сегментации речи через контекстные подсказки, которые оно предоставляет, учитывая, что это в значительной степени вероятностная система, основанная на статистической вероятности того, что определенные слова или составные части встречаются вместе. Например, можно представить себе ситуацию, когда человек может сказать «Я купил свою собаку в ____ магазине», а гласная пропущенного слова произносится как «сеть», «пот» или «домашнее животное». Хотя вероятность «netshop» крайне мала, поскольку «netshop» в настоящее время не является составным или словосочетанием на английском языке, а «потогонный магазин» также кажется контекстуально маловероятным, «зоомагазин» хорошо подходит, потому что это распространенная фраза и также связано со словом «собака».[3]

Более того, высказывание может иметь разное значение в зависимости от того, как оно разбито на слова. Популярным примером, часто цитируемым в этой области, является фраза «Как разрушить хороший пляж», которая звучит очень похоже к «Как распознать речь».[4] Как показывает этот пример, правильная лексическая сегментация зависит от контекста и семантика который опирается на все человеческие знания и опыт и, следовательно, требует расширенного распознавания образов и искусственный интеллект технологии, которые будут реализованы на компьютере.

Лексическое распознавание имеет особую ценность в компьютерной области. распознавание речи, поскольку возможность создавать и искать сеть семантически связанных идей значительно повысит эффективность программного обеспечения для распознавания речи. Статистические модели можно использовать для сегментации и сопоставления записанной речи со словами или телефонами. Приложения включают в себя автоматическую синхронизацию губ для мультипликационной анимации, субтитры видео «следуй за прыгающим мячом» и лингвистические исследования. Программное обеспечение для автоматической сегментации и выравнивания имеется в продаже.

Фонотаксические сигналы

Для большинства разговорных языков трудно определить границы между лексическими единицами; фонотактика один из ответов на этот вопрос. Можно было бы ожидать, что промежутки между словами, используемые многими письменными языками, такими как английский или испанский, будут соответствовать паузам в их устной версии, но это верно только для очень медленной речи, когда говорящий намеренно вставляет эти паузы. В обычной речи обычно встречается много последовательных слов, которые произносятся без пауз между ними, и часто последние звуки одного слова плавно переходят или сливаются с начальными звуками следующего слова.

Представление о том, что речь создается подобно письму, как последовательность отдельных гласных и согласных, может быть пережитком алфавитного наследия некоторых языковых сообществ. Фактически, способ образования гласных зависит от окружающих согласных так же, как на согласные влияют окружающие гласные; это называется коартикуляция. Например, в слове «комплект» [k] идет дальше вперед, чем когда мы говорим «пойман». Но также гласная в слове «kick» фонетически отличается от гласной в «kit», хотя обычно мы этого не слышим. Кроме того, в повседневной речи происходят языковые изменения, которые сильно отличает ее от орфографии. Например, в английском языке фраза «hit you» может быть более подходящей для написания «hitcha».

С точки зрения декомпозиции, во многих случаях фонотактика играет роль в том, чтобы говорящие знали, где провести границы слов. В английском языке слово «клубника» воспринимается носителями как состоящее (фонетически) из двух частей: «солома» и «ягода». Другие интерпретации, такие как «stra» и «wberry», подавляются английской фонотактикой, которая не позволяет кластер «wb» слово-origin. Другими такими примерами являются «день / сон» и «миля / камень», которые вряд ли можно интерпретировать как «da / ydream» или «mil / estone» из-за фонотаксической вероятности или маловероятности определенных кластеров. Предложение «Осталось пять женщин», которое фонетически можно переписать как [faɪvwɪmɘnlɛft], отмечено, поскольку ни / vw / in / faɪvwɪmɘn /, ни / nl / in / wɪmɘnlɛft / не могут использоваться в качестве слога. начала или же коды в английской фонотактике. Эти фонотаксические сигналы часто позволяют говорящим легко различать границы в словах.

Гармония гласных в таких языках, как финский, также может служить фонотаксическим сигналом. В то время как система не позволяет гласным переднего и заднего ряда существовать вместе в одной морфеме, соединения позволяют двум морфемам поддерживать гармонию своей собственной гласной, сосуществуя в слове. Следовательно, в таких соединениях, как "selkä / ongelma" ("проблема со спиной"), где гармония гласных отличается между двумя составляющие в соединении граница будет там, где происходит переключение в гармонии - в данном случае между «ä» и «ö».[5] Тем не менее, есть случаи, когда фонотактика не может помочь в сегментации. Слова с нечеткими кластерами или несогласованной гармонией гласных, как в «opinto / uudistus» («студенческая реформа»), не дают фонотаксических ключей к тому, как они сегментированы.[6][требуется полная цитата ]

Однако с точки зрения модели целого слова эти слова хранятся как полные слова, поэтому составные части не обязательно будут иметь отношение к лексическому распознаванию.

Сегментация речи у младенцев и не родных

Младенцы являются одним из основных направлений исследований сегментации речи. Поскольку младенцы еще не усвоили словарный запас, способный предоставить обширные контекстные подсказки или вероятностный поиск слов в течение первого года жизни, как упоминалось выше, они часто должны полагаться в первую очередь на фонотаксические и ритмические сигналы (с просодия являясь доминирующим сигналом), все они зависят от языка. В возрасте от 6 до 9 месяцев младенцы начинают терять способность различать звуки, отсутствующие в их родном языке, и становятся чувствительными к звуковой структуре их родного языка, причем способность сегментации слов появляется примерно в 7,5 месяцев.

Хотя необходимо провести гораздо больше исследований точных процессов, которые младенцы используют для начала сегментации речи, текущие и прошлые исследования показывают, что младенцы, родившиеся на английском языке, используют ударные слоги в качестве начала слов. В 7,5 месяцев младенцы, по-видимому, способны разделять двусложные слова на сильные и слабые. стресс паттерны, хотя паттерны слабого-сильного стресса часто неверно интерпретируются, например интерпретация "guiTAR is" как "GUI TARis". Кажется, что младенцы также проявляют некоторую сложность в отслеживании частоты и вероятности слов, например, осознавая, что, хотя слоги «the» и «dog» часто встречаются вместе, «the» также часто встречается с другими слогами, что может привести к анализ того, что «собака» - это отдельное слово или понятие, а не интерпретация «собака».[7][8]

Изучающие язык - еще одна группа людей, исследуемых в рамках сегментации речи. В некотором смысле, обучение сегментированию речи может быть более трудным для изучающего второй язык, чем для младенца, не только из-за незнания вероятностей и ограничений звука, но особенно из-за чрезмерного применения шаблонов родного языка. Хотя некоторые закономерности могут возникать между языками, как, например, в слоговой сегментации французского и английского языков, они могут плохо работать с такими языками, как японский, который имеет Мора система сегментации на основе. Кроме того, фонотаксические ограничения, такие как кластер с разметкой границ / ld / на немецком или голландском языке, разрешены (без обязательной маркировки границ) на английском языке. Даже связь между стрессом и длина гласного, который может показаться интуитивно понятным для носителей английского языка, может не существовать в других языках, поэтому изучающие второй язык сталкиваются с особенно серьезной проблемой при изучении языка и его признаков сегментации.[9]

Смотрите также

Рекомендации

  1. ^ а б Бадекер, Уильям и Марк Аллен. "Морфологический анализ и восприятие лексической идентичности: замаскированное первичное исследование гомографов ствола". Журнал памяти и языка 47.1 (2002): 125–144. Проверено 27 апреля 2014 года.
  2. ^ Тафт, Маркус и Кеннет И. Форстер. «Лексическое хранение и поиск полиморфемных и многосложных слов». Журнал вербального обучения и вербального поведения 15.6 (1976): 607–620. Проверено 27 апреля 2014 года.
  3. ^ Либерман, Генри; Александр Фаборг; Васим Дахер; Хосе Эспиноса (9–12 января 2005 г.). "Как разрушить красивый пляж, поете спокойные благовония" (PDF). Медиа-библиотека MIT. Цитировать журнал требует | журнал = (помощь)
  4. ^ Часто используемый в литературе пример распознавание речи. Одним из первых примеров является Н. Рекс Диксон, «Некоторые проблемы автоматического распознавания непрерывной речи и их значение для распознавания образов». Труды Первой международной совместной конференции по распознаванию образов, IEEE, 1973, как процитировано у Марка Либермана, «Разрушение хорошего пляжа», Журнал языков 5 августа 2014 г.
  5. ^ Бертрам, Раймонд; Александр Поллацек; и Юкка Хёна. «Морфологический анализ и использование признаков сегментации при чтении финских соединений». Журнал памяти и языка 51.3 (2004): 325–345. Проверено 27 апреля 2014 года.
  6. ^ «Общее введение» (PDF). Архивировано из оригинал (PDF) на 2014-04-27. Отсутствует или пусто | название = (помощь)
  7. ^ Ющик, Питер В. и Дерек М. Хьюстон. «Начало сегментации слов у младенцев, изучающих английский язык». Когнитивная психология 39 (1999): 159–207. Проверено 27 апреля 2014 года.
  8. ^ Джонсон, Элизабет К. и Питер В. Ючик. «Сегментация слов по 8-месячным детям: когда речевые сигналы важнее статистики». Журнал памяти и языка 44 (2001): 548–567. Проверено 27 апреля 2014 года.
  9. ^ Тайлер, Майкл Д. и Энн Катлер. «Межъязыковые различия в использовании сигналов для сегментации речи». Журнал Акустического общества Америки 126 (2009): 367–376. Проверено 27 апреля 2014 года.

внешняя ссылка