TRACE (психолингвистика) - TRACE (psycholinguistics)

СЛЕД это коннекционист модель восприятие речи, предложено Джеймс Макклелланд и Джеффри Элман в 1986 г.[1] Он основан на структуре, называемой «След», динамической структуре обработки, состоящей из сети модулей, которая выполняет роль рабочей памяти системы, а также механизма перцептивной обработки.[2] TRACE был превращен в рабочую компьютерную программу для моделирования восприятия. Эти симуляции представляют собой предсказания того, как человеческий мозг / мозг обрабатывает звуки речи и слова, когда они слышны в реальном времени.

Вдохновение

TRACE был создан в период становления коннекционизма и был включен в качестве главы в Параллельная распределенная обработка: исследования микроструктур познания.[3] Исследователи обнаружили, что определенные проблемы, связанные с восприятием речи, можно концептуализировать в терминах модели интерактивной активации коннекционизма. Проблемы заключались в том, что (1) речь растягивается во времени, (2) звуки речи (фонемы) накладываются друг на друга, (3) на артикуляцию речевого звука влияют звуки, которые идут до и после него, и (4) естественная изменчивость речи (например, иностранный акцент), а также шум в окружающей среде (например, оживленный ресторан). Каждый из них приводит к тому, что речевой сигнал становится сложным и часто неоднозначным, из-за чего человеческому разуму / мозгу сложно решить, какие слова он действительно слышит. Проще говоря, интерактивная модель активации решает эту проблему, размещая различные типы блоков обработки (фонемы, слова) в изолированных слоях, позволяя активированным блокам передавать информацию между слоями, и позволяя блокам внутри слоев конкурировать друг с другом до тех пор, пока « победитель »считается« признанным »моделью.

Основные выводы

«TRACE была первой моделью, которая продемонстрировала активацию нескольких слов-кандидатов, соответствующих любой части речевого ввода».[4] Моделирование восприятия речи включает в себя представление компьютерной программы TRACE с имитацией речевого ввода, запуск программы и генерирование результата. Успешное моделирование показывает, что результат существенно схож с тем, как люди обрабатывают речь.

Распознавание слов во времени

Это общепринято в психолингвистика что (1) когда слышно начало слова, в памяти активируется набор слов, которые имеют один и тот же начальный звук,[5] (2) слова, которые активируются, конкурируют друг с другом, пока слышно все больше и больше слова,[6] (3) в какой-то момент из-за слухового ввода и лексической конкуренции распознается одно слово.[1]

Например, слушатель слышит начало лысый, и слова лысый, мяч, плохой, законопроект становятся активными в памяти. Затем, вскоре после этого, в соревновании остаются только лысина и мяч (плохо, счет был исключен, потому что гласный звук не соответствует входному). Вскоре признают лысину. TRACE моделирует этот процесс, представляя временное измерение речи, позволяя словам в лексиконе различаться по силе активации, а также за счет конкуренции слов во время обработки. На рисунке 1 показан линейный график активации слов в простой симуляции TRACE.

Рисунок 1 - Простое моделирование TRACE. Активация слов и соревнование разворачиваются во времени. В этой симуляции слово «лысый» становится наиболее активным, поэтому оно считается признанным.

Лексическое влияние на восприятие фонем

Если произносится неоднозначный речевой звук, который находится точно между / т / и / d /, слушателю может быть трудно решить, что это такое. Но если тот же самый неоднозначный звук слышен в конце слова вроде woo /? / (Где? - неоднозначный звук), то слушающий с большей вероятностью будет воспринимать звук как / d /. Вероятно, это происходит потому, что дерево - это слово, а шерсть - нет. Неоднозначная фонема, представленная в лексическом контексте, будет восприниматься как совместимая с окружающим лексическим контекстом. Этот эффект восприятия известен как эффект Ганонга.[7] TRACE надежно моделирует это и может объяснить это относительно просто. По сути, лексическая единица, которая была активирована вводом (т. Е. Древесина), передает активацию обратно на слой фонем, усиливая активацию составляющих ее фонем (т. Е. / d /), устраняя таким образом неоднозначность.

Лексическая основа сегментации

Спикеры обычно не оставляют пауз между словами при разговоре[нужна цитата ], но слушателям, кажется, не составляет труда слышать речь как последовательность слов. Это известно как проблема сегментации, и является одной из самых старых проблем в психология языка. TRACE предложил следующее решение, подкрепленное моделированием. Когда слова активируются и распознаются, это показывает местоположение границ слова. Более сильная активация слова приводит к большей уверенности в границах слова, что информирует слушателя о том, где ожидать, что следующее слово начнется.[1]

Как работает TRACE

Модель TRACE - это сеть коннекционистов с входным слоем и тремя слоями обработки: псевдоспектром (признак), фонемой и словом. На рисунке 2 показана схематическая диаграмма TRACE. Существует три типа связности: (1) возбуждающие связи с прямой связью от входа к функциям, функций к фонемам и фонем к словам; (2) боковые (т.е. внутри слоя) тормозящие связи на уровне признаков, фонем и слов; и (3) возбуждающие связи с обратной связью сверху вниз от слов к фонемам. Вход в TRACE работает следующим образом. Пользователь предоставляет последовательность фонем, которая преобразуется в многомерный вектор признаков. Это приближение акустических спектров, растянутых во времени. Входной вектор раскрывается понемногу, чтобы моделировать временную природу речи. При представлении каждого нового блока ввода данные об активности передаются по сетевым соединениям, изменяя значения активации на уровнях обработки. Функции активируют единицы фонем, а фонемы активируют единицы слова. Параметры определяют силу возбуждающих и тормозных связей, а также многие другие детали обработки. Не существует специального механизма, который определяет, когда слово или фонема было распознано. Если моделирование сравнивается с данными о времени реакции из перцептивного эксперимента (например, лексическое решение), то обычно используется порог активации. Это позволяет интерпретировать поведение модели как распознавание, а время распознавания записывать как количество прошедших циклов обработки. Для более глубокого понимания динамики обработки TRACE читателям предлагается обратиться к оригинальной публикации.[1] и в СЛЕД программный инструмент который запускает моделирование с помощью графического пользовательского интерфейса.

Рисунок 2 - Принципиальная схема архитектуры TRACE.

Критика

Модульность обсуждения разума

Актуальность TRACE для модульность дебаты недавно были выдвинуты на первый план в отчете Норриса, Катлера и Маккуина (2001) о Слияние (?) модель восприятия речи.[8] Хотя он имеет ряд общих функций с TRACE, ключевое отличие заключается в следующем. В то время как TRACE позволяет словарным единицам возвращать активацию на уровень фонем, Merge ограничивает свою обработку соединениями с прямой связью. В рамках этой дискуссии считается, что TRACE нарушает принцип инкапсуляции информации, центральный для модульности, когда он позволяет более позднему этапу обработки (слова) отправлять информацию на более ранний этап (фонемы). Merge выступает за модульность, утверждая, что тот же класс явлений восприятия, который учитывается в TRACE, можно объяснить в архитектуре коннекционизма, которая не включить обратную связь. Норрис и др. указать, что когда две теории могут объяснить одно и то же явление, скупость диктует, что более простая теория предпочтительнее.

Приложения

Речевая и языковая терапия

Модели языковой обработки могут использоваться для осмысления характера нарушения у лиц с нарушение речи и языка. Например, было высказано предположение, что языковой дефицит в экспрессивная афазия может быть вызвано чрезмерной конкуренцией между лексическими единицами, что мешает любому слову стать достаточно активным.[9] Аргументы в пользу этой гипотезы заключаются в том, что психическая дисфункция может быть объяснена небольшим нарушением обработки сетевой модели. Это новое направление исследований включает в себя широкий спектр теорий и моделей, и TRACE представляет собой лишь часть растущей головоломки.

Отличие от программного обеспечения для распознавания речи

Психолингвистические модели восприятия речи, например TRACE, следует отличать от компьютера распознавание речи инструменты. Первые представляют собой психологические теории о том, как человеческий разум / мозг обрабатывает информацию. Последние представляют собой инженерные решения для преобразования звукового сигнала в текст. Исторически эти два поля почти не контактировали, но это начинает меняться.[10]

Влияние

Влияние TRACE на психологическую литературу можно оценить по количеству статей, в которых он цитируется. 345 цитат из McClelland and Elman (1986) в PsycINFO база данных. На рисунке 3 показано распределение этих цитирований по годам с момента публикации. Цифра предполагает, что интерес к TRACE значительно вырос в 2001 году и остается высоким - около 30 цитирований в год.

Рисунок 3 - Годовая разбивка цитирований TRACE в исследовательской базе данных PsycINFO.

Смотрите также

Рекомендации

  1. ^ а б c d Макклелланд, Дж. Л., и Элман, Дж. Л. (1986)
  2. ^ Макклелланд, Джеймс; Элман, Джеффри (январь 1986). «Модель восприятия речи TRACE». Когнитивная психология. 18 (1): 1–86. Дои:10.1016/0010-0285(86)90015-0. PMID  3753912.
  3. ^ Макклелланд, J.L., D.E. Рамельхарт и Исследовательская группа PDP (1986). Параллельная распределенная обработка: исследования микроструктуры познания. Том 2: Психологические и биологические модели, Кембридж, Массачусетс: MIT Press
  4. ^ Вебер, Андреа; Шеренборг, Одетт (01.05.2012). «Модели распознавания устного слова». Междисциплинарные обзоры Wiley: когнитивная наука. 3 (3): 387–401. Дои:10.1002 / wcs.1178. HDL:11858 / 00-001M-0000-0012-29E4-5. ISSN  1939-5086. PMID  26301470.
  5. ^ Marslen-Wilson, W .; Тайлер, Л. К. (1980). «Временная структура понимания разговорной речи». Познание. 8 (1): 1–71. CiteSeerX  10.1.1.299.7676. Дои:10.1016/0010-0277(80)90015-3. PMID  7363578.
  6. ^ Luce, P.A .; Писони, Д. Б. (1998). «Распознавание произнесенных слов: модель активации соседства». Ухо и слух. 19: 1–36. Дои:10.1097/00003446-199802000-00001. ЧВК  3467695.
  7. ^ Ганонг, В. Ф. (1980). Фонетическая категоризация слухового восприятия. Журнал экспериментальной психологии: человеческое восприятие и производительность, 6, 110–125.
  8. ^ Norris, D .; McQueen, J.M .; Катлер, А. (2000). «Объединение информации при распознавании речи: обратная связь никогда не нужна». Поведенческие науки и науки о мозге. 23: 299–370. Дои:10.1017 / s0140525x00003241. HDL:11858 / 00-001M-0000-0013-3790-1.
  9. ^ Самоорганизующаяся динамика лексического доступа у нормальных и афазиков. Макнеллис, Марк Дж .; Blumstein, Sheila E .; Журнал когнитивной нейробиологии, том 13 (2), февраль 2001 г., стр. 151-170.
  10. ^ Scharenborg, O .; Norris, D .; ten Bosch, L .; Маккуин, Дж. М. (2005). «Как должен работать распознаватель речи?». Наука о мышлении. 29 (6): 867–918. Дои:10.1207 / с15516709cog0000_37. HDL:11858 / 00-001M-0000-0013-1E5D-C. PMID  21702797.

внешняя ссылка

  • jTRACE - Повторная реализация модели TRACE на Java. Программное обеспечение с открытым исходным кодом, независимое от платформы. Страница также включает загрузку более ранней реализации TRACE на языке c.