Распознавание речи - Speech recognition
Распознавание речи является междисциплинарный подполе Информатика и компьютерная лингвистика что развивается методологии и технологии, позволяющие узнавать и перевод разговорной речи в текст с помощью компьютеров. Он также известен как автоматическое распознавание речи (ASR), компьютерное распознавание речи или же речь в текст (STT). Он включает знания и исследования в Информатика, лингвистика и компьютерная инженерия поля.
Некоторые системы распознавания речи требуют «обучения» (также называемого «зачислением»), когда отдельный говорящий читает текст или изолированно словарный запас в систему. Система анализирует конкретный голос человека и использует его для точной настройки распознавания речи этого человека, что приводит к повышению точности. Системы, в которых не используется обучение, называются «независимыми от говорящего».[1] системы. Системы, использующие обучение, называются «зависимыми от говорящего».
Приложения для распознавания речи включают голосовые пользовательские интерфейсы например, голосовой набор (например, «позвонить домой»), маршрутизация вызовов (например, «Я хочу сделать обратный вызов»), домотический управление устройством, поиск по ключевым словам (например, поиск подкаста, в котором были произнесены определенные слова), простой ввод данных (например, ввод номера кредитной карты), подготовка структурированных документов (например, радиологического отчета), определение характеристик говорящего,[2] преобразование речи в текст (например, текстовые процессоры или же электронные письма ), и самолет (обычно называемый прямой голосовой ввод ).
Период, термин распознавание голоса[3][4][5] или же идентификация говорящего[6][7][8] относится к идентификации говорящего, а не к тому, что он говорит. Узнавая говорящего может упростить задачу перевода речи в системах, которые были обучены голосу конкретного человека, или может использоваться для аутентификации или проверки личности говорящего в рамках процесса безопасности.
С технологической точки зрения распознавание речи имеет долгую историю с несколькими волнами серьезных инноваций. Совсем недавно в этой области были достигнуты успехи в глубокое обучение и большое количество данных. Об успехах свидетельствует не только всплеск академических статей, опубликованных в этой области, но, что более важно, всемирное внедрение в отрасли различных методов глубокого обучения при разработке и развертывании систем распознавания речи.
История
Ключевыми направлениями роста были: размер словарного запаса, независимость говорящего и скорость обработки.
До 1970 г.
- 1952 - Три исследователя Bell Labs, Стивен Балашек,[9] Р. Биддульф и К. Х. Дэвис построили систему под названием «Одри».[10] для распознавания цифр одного говорящего. Их система обнаружила форманты в спектре мощности каждого высказывания.[11]
- 1960 – Гуннар Фант разработал и опубликовал модель с фильтром источника речи.
- 1962 – IBM продемонстрировал способность распознавания речи машины "Shoebox" из 16 слов на 1962 Всемирная выставка.[12]
- 1966 – Кодирование с линейным прогнозированием (LPC), а кодирование речи метод, был впервые предложен Фумитада Итакура из Нагойский университет и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT), работая над распознаванием речи.[13]
- 1969 - Финансирование на Bell Labs высохли на несколько лет, когда в 1969 году влиятельные Джон Пирс написала открытое письмо, в котором критиковала исследования распознавания речи и защищала их.[14] Это сокращение продолжалось до тех пор, пока Пирс не вышел на пенсию и Джеймс Л. Фланаган взял на себя.
Радж Редди был первым, кто начал распознавать непрерывную речь в аспирантуре Стэндфордский Университет в конце 1960-х гг. Предыдущие системы требовали, чтобы пользователи делали паузу после каждого слова. Система Редди выдавала голосовые команды для игры шахматы.
Примерно в это же время советские исследователи изобрели динамическое искажение времени (DTW) и использовал его для создания распознавателя, способного работать со словарем из 200 слов.[15] DTW обрабатывает речь, разделяя ее на короткие кадры, например 10 мс сегментов и обработка каждого кадра как одного блока. Хотя DTW будет заменен более поздними алгоритмами, этот метод продолжился. Достижение независимости спикеров в то время оставалось нерешенным.
1970–1990
- 1971 – DARPA финансируется пять лет на Исследование понимания речи, исследование распознавания речи, требующее минимального словарного запаса в 1000 слов. Они думали речь понимание будет ключом к успеху в речи признание, но это позже оказалось неправдой.[16] BBN, IBM, Университет Карнеги-Меллона и Стэнфордский исследовательский институт все участвовали в программе.[17][18] Это ожившее письмо Джона Пирса, посвященное исследованию распознавания речи.
- 1972 - Группа IEEE по акустике, речи и обработке сигналов провела конференцию в Ньютоне, штат Массачусетс.
- 1976 Первый ICASSP был проведен в Филадельфия, который с тех пор стал основным местом публикации исследований по распознаванию речи.[19]
В конце 1960-х гг. Леонард Баум разработал математику Цепи Маркова на Институт оборонного анализа. Десять лет спустя в CMU студенты Раджа Редди Джеймс Бейкер и Джанет М. Бейкер начал использовать Скрытая марковская модель (HMM) для распознавания речи.[20] Джеймс Бейкер узнал о HMM на летней работе в Институте анализа обороны во время учебы в бакалавриате.[21] Использование HMM позволило исследователям объединить различные источники знаний, такие как акустика, язык и синтаксис, в единую вероятностную модель.
- Посредством середина 1980-х IBM Фреда Елинека команда создала пишущую машинку с голосовым управлением под названием Tangora, которая могла обрабатывать словарь из 20 000 слов.[22] Статистический подход Елинека уделяет меньше внимания имитации того, как человеческий мозг обрабатывает и понимает речь, в пользу использования методов статистического моделирования, таких как HMM. (Группа Елинека независимо обнаружила применение HMM в речи.[21]Это вызвало споры среди лингвистов, поскольку HMM слишком упрощены, чтобы учесть многие общие черты человеческих языков.[23] Однако HMM оказался очень полезным способом моделирования речи и заменил динамическое искажение времени, став доминирующим алгоритмом распознавания речи в 1980-х годах.[24]
- 1982 - Dragon Systems, основанная Джеймсом и Джанет М. Бейкер,[25] был одним из немногих конкурентов IBM.
Практическое распознавание речи
В 1980-е годы также были введены н-грамм языковая модель.
- 1987 - The модель отката разрешено языковым моделям использовать н-граммы разной длины, и CSELT использовал HMM для распознавания языков (как в программных, так и в аппаратных специализированных процессорах, например RIPAC ).
Прогресс в этой области во многом обусловлен быстро растущими возможностями компьютеров. По окончании программы DARPA в 1976 году лучшим компьютером, доступным исследователям, был компьютер PDP-10 с оперативной памятью 4 МБ.[23] На декодирование всего 30 секунд речи может потребоваться до 100 минут.[26]
Два практических продукта были:
- 1987 - распознаватель от Kurzweil Applied Intelligence
- 1990 - Dragon Dictate, потребительский продукт, выпущенный в 1990 году.[27][28] AT&T в 1992 году развернула службу обработки вызовов с распознаванием голоса для маршрутизации телефонных звонков без участия человека-оператора.[29] Технология была разработана Лоуренс Рабинер и другие в Bell Labs.
К этому моменту словарный запас типичной коммерческой системы распознавания речи был больше, чем средний человеческий словарь.[23] Бывший ученик Раджа Редди, Сюэдун Хуанг, разработала Сфинкс-II система в CMU. Система Sphinx-II была первой, которая обеспечивала распознавание непрерывной речи независимо от говорящего, с большим словарным запасом, и показала лучшие результаты в оценке DARPA 1992 года. Работа с непрерывной речью с большим словарным запасом стала важной вехой в истории распознавания речи. Хуанг основал группа распознавания речи в Microsoft в 1993. Ученица Раджа Редди Кай-Фу Ли присоединился к Apple, где в 1992 году помог разработать прототип речевого интерфейса для компьютера Apple, известного как Casper.
Лерноут и Хауспи бельгийская компания по распознаванию речи приобрела несколько других компаний, в том числе Kurzweil Applied Intelligence в 1997 г. и Dragon Systems в 2000 г. Речевые технологии L&H использовались в Windows XP Операционная система. L&H была лидером отрасли, пока бухгалтерский скандал не положил конец компании в 2001 году. Речевые технологии от L&H были куплены ScanSoft, которая стала Нюанс в 2005 году. яблоко изначально лицензированное программное обеспечение Nuance для обеспечения возможности распознавания речи его цифровому помощнику Siri.[30]
2000-е
В 2000-х DARPA спонсировало две программы распознавания речи: Эффективное доступное многоразовое преобразование речи в текст (EARS) в 2002 году и Глобальная эксплуатация автономных языков (ГЕЙЛ). В программе EARS участвовали четыре команды: IBM, команда во главе с BBN с ЛИМСИ и Univ. Питтсбурга, Кембриджский университет, и команда в составе ИКСИ, НИИ и Вашингтонский университет. EARS профинансировал сбор корпуса телефонных разговоров Switchboard, содержащий 260 часов записанных разговоров от более чем 500 говорящих.[31] Программа GALE была сосредоточена на арабский и Мандарин трансляция новостной речи. Google Первые попытки распознавания речи были предприняты в 2007 году после найма исследователей из Nuance.[32] Первый продукт был GOOG-411, телефонная справочная служба. Записи с GOOG-411 дали ценные данные, которые помогли Google улучшить свои системы распознавания. Google Voice Search теперь поддерживается более чем на 30 языках.
В Соединенных Штатах Национальное Агенство Безопасности использовал тип распознавания речи для определение ключевых слов как минимум с 2006 года.[33] Эта технология позволяет аналитикам искать в больших объемах записанных разговоров и изолировать упоминания ключевых слов. Записи можно индексировать, а аналитики могут выполнять запросы к базе данных, чтобы найти интересующие разговоры. Некоторые правительственные исследовательские программы были посвящены интеллектуальным приложениям распознавания речи, например Программа DARPA EARS и IARPA с Вавилонская программа.
В начале 2000-х годов в распознавании речи все еще преобладали традиционные подходы, такие как Скрытые марковские модели в сочетании с прямой связью искусственные нейронные сети.[34]Сегодня, однако, многие аспекты распознавания речи были взяты на себя глубокое обучение метод называется Долговременная кратковременная память (LSTM), а рекуррентная нейронная сеть опубликовано Зепп Хохрайтер & Юрген Шмидхубер в 1997 г.[35] LSTM RNN избегают проблема исчезающего градиента и может изучать задачи "очень глубокого обучения"[36] которые требуют воспоминаний о событиях, которые произошли тысячи дискретных временных шагов назад, что важно для речи. Примерно в 2007 году LSTM прошел обучение в рамках Connectionist Temporal Classification (CTC)[37] начал превосходить традиционное распознавание речи в некоторых приложениях.[38] По сообщениям, в 2015 году производительность распознавания речи Google резко выросла на 49% благодаря обученному CTC LSTM, который теперь доступен через Гугл голос всем пользователям смартфонов.[39]
Использование глубоких сетей прямого распространения (разовых) для акустическое моделирование был представлен в конце 2009 г. Джеффри Хинтон и его ученики в Университете Торонто и Ли Дэн[40] и коллегами из Microsoft Research, первоначально в рамках совместной работы Microsoft и Университета Торонто, которая впоследствии была расширена за счет включения IBM и Google (отсюда подзаголовок «Общие взгляды четырех исследовательских групп» в их обзорной статье 2012 года).[41][42][43] Один из руководителей исследования Microsoft назвал это нововведение «самым значительным изменением точности с 1979 года».[44] В отличие от неуклонных постепенных улучшений последних нескольких десятилетий, применение глубокого обучения снизило количество ошибок по словам на 30%.[44] Это нововведение было быстро распространено по всему миру. Исследователи начали использовать методы глубокого обучения и для языкового моделирования.
В долгой истории распознавания речи как поверхностная форма, так и глубокая форма (например, повторяющиеся сети) искусственных нейронных сетей изучались в течение многих лет в течение 1980-х, 1990-х годов и несколько лет до 2000-х годов.[45][46][47]Но эти методы никогда не побеждали неоднородную внутреннюю ручную работу. Модель гауссовой смеси /Скрытая марковская модель (GMM-HMM) технология, основанная на генеративных моделях речи, обучаемых избирательно.[48] В 1990-е годы был методологически проанализирован ряд ключевых трудностей, в том числе уменьшение градиента[49] и слабая структура временной корреляции в моделях нейронного прогнозирования.[50][51] Все эти трудности были в дополнение к отсутствию больших обучающих данных и большой вычислительной мощности в те первые дни. Большинство исследователей распознавания речи, которые понимали такие препятствия, впоследствии отошли от нейронных сетей и начали применять подходы генеративного моделирования до недавнего возрождения глубокого обучения, начавшегося примерно в 2009–2010 годах, которое преодолело все эти трудности. Hinton et al. и Deng et al. рассмотрели часть этой недавней истории о том, как их сотрудничество друг с другом, а затем с коллегами из четырех групп (Университет Торонто, Microsoft, Google и IBM) привело к возрождению приложений глубоких нейронных сетей с прямой связью для распознавания речи.[42][43][52][53]
2010-е
К началу 2010-х речь распознавание, также называемое распознаванием голоса[54][55][56] четко отличался от зрEaker признание и независимость говорящего считались большим прорывом. А до этого системам требовался период «обучения». В рекламе куклы 1987 года был слоган: «Наконец-то кукла, которая тебя понимает». - несмотря на то, что это было описано как «какие дети могут научиться реагировать на свой голос».[12]
В 2017 году исследователи Microsoft достигли исторического рубежа человеческого паритета - расшифровки речи разговорной телефонной связи с помощью широко протестированной задачи Switchboard. Для оптимизации точности распознавания речи использовалось несколько моделей глубокого обучения. Сообщается, что частота ошибок распознавания речи составляет всего лишь 4 профессиональных человека-расшифровщика, работающих вместе над одним и тем же тестом, который финансировался командой IBM Watson Speech для решения одной и той же задачи.[57]
Модели, методы и алгоритмы
Обе акустическое моделирование и языковое моделирование являются важными частями современных статистических алгоритмов распознавания речи. Скрытые марковские модели (HMM) широко используются во многих системах. Языковое моделирование также используется во многих других приложениях обработки естественного языка, таких как классификация документов или же статистический машинный перевод.
Скрытые марковские модели
Современные системы распознавания речи общего назначения основаны на скрытых марковских моделях. Это статистические модели, которые выводят последовательность символов или величин. HMM используются в распознавании речи, потому что речевой сигнал можно рассматривать как кусочно-стационарный сигнал или кратковременный стационарный сигнал. В коротком масштабе времени (например, 10 миллисекунд) речь может быть аппроксимирована как стационарный процесс. Речь можно рассматривать как Марковская модель для многих стохастических целей.
Еще одна причина популярности HMM заключается в том, что их можно обучать автоматически, они просты и доступны с вычислительной точки зрения. При распознавании речи скрытая марковская модель выдала бы последовательность п-мерные вещественнозначные векторы (с п является небольшим целым числом, например 10), выводя одно из них каждые 10 миллисекунд. Векторы будут состоять из кепстрал коэффициенты, которые получаются взятием преобразование Фурье короткого временного окна речи и декорреляции спектра с помощью косинусное преобразование, затем беря первые (наиболее значимые) коэффициенты. Скрытая марковская модель будет иметь тенденцию иметь в каждом состоянии статистическое распределение, которое представляет собой смесь диагональных ковариационных гауссианов, что дает вероятность для каждого наблюдаемого вектора. Каждое слово или (для более общих систем распознавания речи) каждое фонема, будет другое выходное распределение; Скрытая марковская модель для последовательности слов или фонем создается путем объединения отдельных обученных скрытых марковских моделей для отдельных слов и фонем.
Выше описаны основные элементы наиболее распространенного подхода к распознаванию речи, основанного на HMM. Современные системы распознавания речи используют различные комбинации ряда стандартных методов для улучшения результатов по сравнению с базовым подходом, описанным выше. Типичная система с большим словарным запасом потребует контекстная зависимость для фонем (так что фонемы с разным левым и правым контекстом имеют разную реализацию в виде состояний HMM); он будет использовать кепстральная нормализация для нормализации для различных динамиков и условий записи; для дальнейшей нормализации говорящего он может использовать нормализацию длины голосового тракта (VTLN) для мужской и женской нормализации и линейная регрессия максимального правдоподобия (MLLR) для более общей адаптации динамика. Функции будут иметь так называемые дельта и дельта-дельта коэффициенты для захвата динамики речи и, кроме того, может использовать гетероскедастический линейный дискриминантный анализ (HLDA); или может пропустить дельта- и дельта-дельта коэффициенты и использовать сращивание и LDA -проекция, за которой, возможно, следует гетероскедастический линейный дискриминантный анализ или глобальная полусвязанная ковариация преобразовать (также известный как линейное преобразование максимального правдоподобия, или MLLT). Многие системы используют так называемые методы дискриминантного обучения, которые обходятся без чисто статистического подхода к оценке параметров HMM и вместо этого оптимизируют некоторые связанные с классификацией меры обучающих данных. Примеры максимальные взаимная информация (MMI), минимальная ошибка классификации (MCE) и минимальная ошибка телефона (MPE).
При декодировании речи (термин, обозначающий, что происходит, когда системе предъявляется новое высказывание, и она должна вычислить наиболее вероятное исходное предложение), вероятно, будет использоваться Алгоритм Витерби чтобы найти лучший путь, и здесь есть выбор между динамическим созданием комбинации скрытой марковской модели, которая включает в себя информацию как акустической, так и языковой модели, и ее предварительное статическое объединение ( конечный преобразователь, или FST, подход).
Возможное улучшение декодирования состоит в том, чтобы сохранить набор хороших кандидатов вместо того, чтобы просто оставить лучшего кандидата, и использовать лучшую функцию оценки (повторная оценка ), чтобы оценить этих хороших кандидатов, чтобы мы могли выбрать лучшего в соответствии с этой уточненной оценкой. Набор кандидатов может храниться либо в виде списка ( N-лучший список подход) или как подмножество моделей ( решетка ). Повторная оценка обычно выполняется, пытаясь минимизировать Байесовский риск[58] (или его приближение): вместо того, чтобы брать исходное предложение с максимальной вероятностью, мы пытаемся взять предложение, которое минимизирует ожидание данной функции потерь в отношении всех возможных транскрипций (т. е. мы берем предложение, которое минимизирует среднее расстояние к другим возможным предложениям, взвешенным по их предполагаемой вероятности). Функция потерь обычно Расстояние Левенштейна, хотя для конкретных задач это могут быть разные расстояния; набор возможных транскрипций, конечно, сокращен, чтобы сохранить управляемость. Разработаны эффективные алгоритмы для повторной оценки решетки представлены как взвешенные преобразователи конечного состояния с редактировать расстояния представили себя как конечный преобразователь проверка определенных предположений.[59]
Распознавание речи на основе динамического искажения времени (DTW)
Динамическое искажение времени - это подход, который исторически использовался для распознавания речи, но в настоящее время в значительной степени вытеснен более успешным подходом, основанным на HMM.
Динамическое искажение времени - это алгоритм измерения сходства между двумя последовательностями, которые могут различаться по времени или скорости. Например, сходство в моделях ходьбы может быть обнаружено, даже если на одном видео человек шел медленно, а на другом - быстрее, или даже если в ходе одного наблюдения были ускорения и замедления. DTW был применен к видео, аудио и графике - действительно, любые данные, которые можно преобразовать в линейное представление, можно проанализировать с помощью DTW.
Хорошо известным приложением было автоматическое распознавание речи, чтобы справиться с разной скоростью речи. В общем, это метод, который позволяет компьютеру найти оптимальное соответствие между двумя заданными последовательностями (например, временными рядами) с определенными ограничениями. То есть последовательности нелинейно «искажаются», чтобы соответствовать друг другу. Этот метод выравнивания последовательностей часто используется в контексте скрытых марковских моделей.
Нейронные сети
Нейронные сети стали привлекательным методом акустического моделирования в ASR в конце 1980-х годов. С тех пор нейронные сети использовались во многих аспектах распознавания речи, таких как классификация фонем,[60] классификация фонем с помощью многоцелевых эволюционных алгоритмов,[61] распознавание отдельных слов,[62] аудиовизуальное распознавание речи, аудиовизуальное распознавание диктора и адаптация диктора.
Нейронные сети делают меньше явных предположений о статистических свойствах признаков, чем HMM, и обладают несколькими качествами, делающими их привлекательными моделями распознавания для распознавания речи. При использовании для оценки вероятностей сегмента речевых характеристик нейронные сети позволяют естественным и эффективным образом проводить различительное обучение. Однако, несмотря на их эффективность при классификации кратковременных единиц, таких как отдельные фонемы и отдельные слова,[63] Ранние нейронные сети редко были успешными для задач непрерывного распознавания из-за их ограниченной способности моделировать временные зависимости.
Один из подходов к этому ограничению заключался в использовании нейронных сетей в качестве предварительной обработки, преобразования функций или уменьшения размерности.[64] шаг до распознавания на основе HMM. Однако в последнее время LSTM и связанные с ним рекуррентные нейронные сети (RNN)[35][39][65][66] и нейронные сети с временной задержкой (TDNN)[67] продемонстрировали улучшенную производительность в этой области.
Глубокие нейронные сети с прямой связью и рекуррентные
Глубокие нейронные сети и шумоподавление Автоэнкодеры[68] также находятся под следствием. Нейронная сеть с прямой связью (DNN) - это искусственная нейронная сеть с несколькими скрытыми слоями единиц между входным и выходным слоями.[42] Подобно мелким нейронным сетям, DNN могут моделировать сложные нелинейные отношения. Архитектура DNN генерирует композиционные модели, где дополнительные слои позволяют комбинировать функции из более низких уровней, обеспечивая огромную способность к обучению и, таким образом, возможность моделирования сложных шаблонов речевых данных.[69]
Успех DNN в распознавании речи с большим словарем произошел в 2010 году промышленными исследователями в сотрудничестве с академическими исследователями, где были приняты большие выходные уровни DNN, основанные на контекстно-зависимых состояниях HMM, построенных с помощью деревьев решений.[70][71][72] См. Исчерпывающие обзоры этой разработки и состояния дел по состоянию на октябрь 2014 г. в недавней книге Springer от Microsoft Research.[73] См. Также связанные с этим основы автоматического распознавания речи и влияние различных парадигм машинного обучения, в частности, включая глубокое обучение, недавние обзорные статьи.[74][75]
Один фундаментальный принцип глубокое обучение это покончить с ручной работой разработка функций и использовать необработанные функции. Этот принцип был впервые успешно исследован в архитектуре глубокого автоэнкодера на «сырой» спектрограмме или линейных характеристиках банка фильтров.[76] демонстрируя свое превосходство над функциями Mel-Cepstral, которые содержат несколько этапов фиксированного преобразования из спектрограмм. Недавно было показано, что истинные «сырые» характеристики речи, формы волны, дают превосходные результаты крупномасштабного распознавания речи.[77]
Сквозное автоматическое распознавание речи
С 2014 года наблюдается большой исследовательский интерес к сквозной ASR. На традиционной фонетической основе (т. Е. Все ХМ на основе модели) требовали отдельных компонентов и обучения произношению, акустике и языковая модель. Сквозные модели совместно изучают все компоненты распознавателя речи. Это ценно, поскольку упрощает процесс обучения и развертывания. Например, модель языка n-грамм требуется для всех систем на основе HMM, а типичная языковая модель n-граммы часто занимает несколько гигабайт в памяти, что делает ее непрактичной для развертывания на мобильных устройствах.[78] Следовательно, современные коммерческие системы ASR от Google и яблоко (по состоянию на 2017 год) развертываются в облаке и требуют сетевого подключения, а не устройства локально.
Первая попытка сквозного ASR была с Коннекционистская временная классификация (CTC) -системы, представленные Алекс Грейвс из Google DeepMind и Навдип Джайтли из Университет Торонто в 2014.[79] Модель состояла из повторяющиеся нейронные сети и слой СТС. Модель RNN-CTC совместно изучает произношение и акустическую модель, однако не может изучать язык из-за условная независимость предположения, аналогичные HMM. Следовательно, модели CTC могут напрямую научиться сопоставлять акустику речи с английскими иероглифами, но модели допускают много распространенных орфографических ошибок и должны полагаться на отдельную языковую модель для очистки транскриптов. Потом, Baidu расширил работу с чрезвычайно большими наборами данных и продемонстрировал некоторый коммерческий успех на китайском мандаринском и английском языках.[80] В 2016 г. Оксфордский университет представила LipNet,[81] первая модель сквозного чтения по губам на уровне предложения, использующая пространственно-временные свертки в сочетании с архитектурой RNN-CTC, превосходящая производительность человеческого уровня в ограниченном наборе грамматических данных.[82] Масштабную архитектуру CNN-RNN-CTC представили в 2018 г. Google DeepMind в 6 раз лучше, чем у экспертов.[83]
Альтернативным подходом к моделям на основе CTC являются модели, основанные на внимании. Модели ASR, основанные на внимании, были одновременно введены Chan et al. из Университет Карнеги Меллон и Google Brain и Bahdanau et al. из Монреальский университет в 2016 году.[84][85] Модель под названием «Слушай, присутствуй и произноси» (LAS) буквально «слушает» акустический сигнал, обращает «внимание» на разные части сигнала и «произносит» транскрипцию по одному символу за раз. В отличие от моделей на основе CTC, модели на основе внимания не имеют предположений об условной независимости и могут напрямую изучать все компоненты распознавателя речи, включая произношение, акустику и языковую модель. Это означает, что во время развертывания нет необходимости носить с собой языковую модель, что делает ее очень практичной для приложений с ограниченной памятью. К концу 2016 года модели, основанные на внимании, добились значительного успеха, в том числе превзошли модели CTC (с моделью внешнего языка или без нее).[86] Начиная с исходной модели LAS были предложены различные расширения. Скрытые разложения последовательности (LSD) были предложены Университет Карнеги Меллон, Массачусетский технологический институт и Google Brain напрямую выдавать части подслова, которые более естественны, чем английские символы;[87] Оксфордский университет и Google DeepMind расширил LAS до "Watch, Listen, Attend and Spell" (WLAS), чтобы читать по губам, превосходя возможности человеческого уровня.[88]
Приложения
Автомобильные системы
Обычно ввод ручного управления, например, с помощью пальца на рулевом колесе, включает систему распознавания речи, и об этом водителю сигнализирует звуковая подсказка.После звуковой подсказки система имеет "окно прослушивания", в течение которого она может принимать речевой ввод для распознавания.[нужна цитата ]
С помощью простых голосовых команд можно совершать телефонные звонки, выбирать радиостанции или воспроизводить музыку с совместимого смартфона, MP3-плеера или флэш-накопителя с музыкой. Возможности распознавания голоса различаются в зависимости от марки автомобиля. Некоторые из самых последних[когда? ] Модели автомобилей предлагают распознавание речи на естественном языке вместо фиксированного набора команд, что позволяет водителю использовать полные предложения и общие фразы. Таким образом, в таких системах пользователю не нужно запоминать набор фиксированных командных слов.[нужна цитата ]
Здравоохранение
Медицинская документация
в здравоохранение В секторе, распознавание речи может быть реализовано как на начальной, так и на конечной стороне процесса медицинской документации. Внешнее распознавание речи - это когда провайдер диктует механизму распознавания речи, распознанные слова отображаются по мере их произнесения, а диктатор отвечает за редактирование и подписание документа. Внутреннее или отложенное распознавание речи - это когда провайдер диктует цифровой диктант В системе голос направляется через машину распознавания речи, и распознанный черновик документа направляется вместе с исходным голосовым файлом в редактор, где черновик редактируется и отчет завершается. Распознавание отложенной речи в настоящее время широко используется в отрасли.
Одна из основных проблем, связанных с использованием распознавания речи в здравоохранении, заключается в том, что Закон о восстановлении и реинвестировании Америки от 2009 г. (ARRA ) обеспечивает значительные финансовые преимущества для врачей, которые используют EMR в соответствии со стандартами «рационального использования». Эти стандарты требуют, чтобы EMR (теперь более часто называемый Электронная медицинская карта или EHR). Использование распознавания речи более естественно подходит для создания повествовательного текста как части интерпретации радиологии / патологии, заметок о ходе выполнения или выписки: эргономические преимущества использования распознавания речи для ввода структурированных дискретных данных (например, числовых значений или кодов) из списка или контролируемый словарный запас ) относительно минимальны для зрячих людей, умеющих пользоваться клавиатурой и мышью.
Более важная проблема заключается в том, что большинство электронных записных книжек не были специально адаптированы для использования возможностей распознавания голоса. Большая часть взаимодействия врача с EHR включает в себя навигацию по пользовательскому интерфейсу с использованием меню и щелчков по вкладкам / кнопкам и в значительной степени зависит от клавиатуры и мыши: голосовая навигация обеспечивает лишь скромные эргономические преимущества. В отличие от этого, многие специализированные системы для радиологии или патологии реализуют голосовые «макросы», где использование определенных фраз - например, «нормальный отчет» автоматически заполняет большое количество значений по умолчанию и / или генерирует шаблон, который будет варьируются в зависимости от типа исследования - например, рентгенография грудной клетки или серия контрастных исследований желудочно-кишечного тракта для рентгенологической системы.
Терапевтическое использование
Длительное использование программного обеспечения для распознавания речи в сочетании с текстовые процессоры показал преимущества для восстановления кратковременной памяти при мозг AVM пациенты, которые лечились резекция. Необходимо провести дальнейшие исследования, чтобы определить когнитивные преимущества для людей, чьи АВМ лечили с помощью радиологических методов.[нужна цитата ]
Военный
Высокоэффективный истребитель
В последнее десятилетие значительные усилия были приложены к тестированию и оценке распознавания речи в самолет истребитель. Особо следует отметить американскую программу распознавания речи для Интеграция передовых истребительных технологий (AFTI) /F-16 самолет (F-16 VISTA ), программа во Франции для Мираж самолетов и других программ в Великобритании, касающихся различных платформ самолетов. В этих программах распознаватели речи успешно использовались в истребительной авиации с такими приложениями, как: установка радиочастот, управление системой автопилота, установка координат точки управления и параметров сброса оружия, а также управление отображением полета.
Работа со шведскими пилотами, летящими в JAS-39 Gripen cockpit, Englund (2004) обнаружил, что распознавание ухудшается с увеличением перегрузки. В отчете также сделан вывод, что адаптация значительно улучшила результаты во всех случаях и что введение моделей дыхания, как было показано, значительно улучшило показатели распознавания. Вопреки тому, что можно было ожидать, никаких эффектов от ломанного английского языка носителей не обнаружено. Было очевидно, что спонтанная речь вызывает проблемы у распознающего, как и следовало ожидать. Таким образом, можно ожидать, что ограниченный словарный запас и, прежде всего, правильный синтаксис существенно улучшат точность распознавания.[89]
В Еврофайтер Тайфун, в настоящее время находится на вооружении Великобритании РАФ, использует зависимую от говорящего систему, требующую от каждого пилота создания шаблона. Система не используется для каких-либо задач, критичных для безопасности или оружия, таких как спуск оружия или опускание шасси, но используется для широкого круга других функций кабины. Голосовые команды подтверждаются визуальной и / или звуковой обратной связью. Система рассматривается как основная конструктивная особенность в сокращении пилотного нагрузка,[90] и даже позволяет пилоту назначать цели своему самолету с помощью двух простых голосовых команд или любому из своих ведомых с помощью только пяти команд.[91]
Системы, не зависящие от динамика, также разрабатываются и проходят испытания для F35 Молния II (JSF) и Alenia Aermacchi M-346 Мастер ведущий тренер истребителей. Эти системы показали точность слов более 98%.[92]
Вертолеты
Проблемы достижения высокой точности распознавания в условиях стресса и шума в значительной степени относятся к вертолет среды, а также среды реактивного истребителя. Проблема акустического шума на самом деле более серьезна в среде вертолета, не только из-за высокого уровня шума, но и потому, что пилот вертолета, как правило, не носит медицинская маска, что снизит акустический шум в микрофон. В последнее десятилетие были проведены обширные программы испытаний и оценки систем распознавания речи на вертолетах, в частности, Армия США Исследования и разработки в области авионики (AVRADA) и Royal Aerospace Establishment (RAE ) в Соединенном Королевстве. Работа во Франции включала распознавание речи в Вертолет Puma. Также было много полезной работы в Канада. Результаты были обнадеживающими, и голосовые приложения включали: управление радиосвязью, настройку навигация систем, а также управление автоматизированной системой переключения целей.
Как и в случае с истребителями, в вертолетах основной проблемой является влияние на эффективность пилотов. Обнадеживающие результаты представлены для тестов AVRADA, хотя они представляют собой лишь демонстрацию осуществимости в тестовой среде. Многое еще предстоит сделать как в области распознавания речи, так и в целом. речевая технология для постоянного повышения производительности в рабочих настройках.
Обучение авиадиспетчеров
Обучение авиадиспетчеров (УВД) представляет собой отличное приложение для систем распознавания речи. Многие системы обучения УВД в настоящее время требуют, чтобы человек действовал как «псевдопилот», участвуя в голосовом диалоге с контроллером-стажером, который имитирует диалог, который диспетчер должен вести с пилотами в реальной ситуации УВД. Распознавание речи и синтез Методы предлагают потенциальную возможность избавить человека от необходимости действовать в качестве псевдопилота, тем самым сокращая обучение и вспомогательный персонал. Теоретически задачи воздушного контроллера также характеризуются высокоструктурированной речью в качестве основного выхода контроллера, поэтому должно быть возможно снижение сложности задачи распознавания речи. На практике это бывает редко. В документе 7110.65 FAA подробно описаны фразы, которые должны использоваться авиадиспетчерами. Хотя в этом документе приводится менее 150 примеров таких фраз, количество фраз, поддерживаемых одной из систем распознавания речи от поставщиков симуляторов, превышает 500 000.
ВВС США, ВМС США, Армия США, ВМС США и FAA, а также ряд международных учебных организаций УВД, таких как Королевские ВВС Австралии и управления гражданской авиации Италии, Бразилии и Канады, в настоящее время используют симуляторы УВД с распознаванием речи от ряд различных поставщиков.[нужна цитата ]
Телефония и другие домены
ASR теперь является обычным явлением в сфере телефония и получает все большее распространение в области компьютерные игры и моделирование. В телефонных системах ASR в настоящее время преимущественно используется в контакт-центрах путем интеграции с IVR системы. Несмотря на высокий уровень интеграции с текстовыми процессорами в обычных персональных компьютерах, в области производства документов ASR не увидела ожидаемого увеличения использования.
Повышение скорости мобильных процессоров сделало распознавание речи практичным в смартфоны. Речь в основном используется как часть пользовательского интерфейса для создания предопределенных или настраиваемых речевых команд.
Использование в образовании и повседневной жизни
За изучение языка, распознавание речи может быть полезно для изучения второй язык. Он может научить правильному произношению, а также помочь человеку развить беглость разговорных навыков.[93]
Слепые студенты (см. Слепота и образование ) или имеют очень слабое зрение, могут извлечь выгоду из использования технологии для передачи слов, а затем услышать, как компьютер произносит их, а также использовать компьютер, командуя своим голосом, вместо того, чтобы смотреть на экран и клавиатуру.[94]
Студенты с ограниченными физическими возможностями или страдающие от Повторяющееся растяжение травмы / Другие травмы верхних конечностей можно избежать, если вам не нужно беспокоиться о почерке, наборе текста или работе с писцом при выполнении школьных заданий с помощью программ преобразования речи в текст. Они также могут использовать технологию распознавания речи, чтобы свободно пользоваться поиском в Интернете или пользоваться домашним компьютером без необходимости физически управлять мышью и клавиатурой.[94]
Распознавание речи может позволить учащимся с ограниченными возможностями научиться лучше писать. Произнося слова вслух, они могут повысить плавность своего письма и избавиться от опасений относительно орфографии, пунктуации и других механизмов письма.[95] Также см Нарушение обучаемости.
Использование программного обеспечения для распознавания голоса в сочетании с цифровым аудиомагнитофоном и персональным компьютером с программным обеспечением для обработки текстов доказало свою эффективность для восстановления поврежденной кратковременной памяти у лиц с инсультом и трепанацией черепа.
Люди с ограниченными возможностями
Люди с ограниченными возможностями могут воспользоваться программами распознавания речи. Для глухих или слабослышащих людей программное обеспечение распознавания речи используется для автоматического создания скрытых субтитров для разговоров, таких как дискуссии в конференц-залах, лекции в классе и / или религиозные службы.[96]
Распознавание речи также очень полезно для людей, которым трудно пользоваться руками, начиная от легких повторяющихся стрессовых травм и заканчивая ограниченными возможностями, которые не позволяют использовать обычные компьютерные устройства ввода. Фактически, люди, которые много использовали клавиатуру и разработали RSI стал актуальным ранним рынком для распознавания речи.[97][98] Распознавание речи используется в глухой телефония, например голосовая почта в текст, услуги ретрансляции, и телефон с субтитрами. Лица с ограниченными возможностями обучения, у которых есть проблемы с коммуникацией между мыслями и бумагами (по сути, они думают об идее, но она обрабатывается неправильно, что приводит к тому, что на бумаге она заканчивается иначе), возможно, выиграют от программного обеспечения, но технология не является защитой от ошибок.[99] Кроме того, сама идея говорить с текстом может быть сложной для умственно отсталых людей из-за того, что редко кто-либо пытается изучить технологию, чтобы научить человека с инвалидностью.[100]
Этот тип технологий может помочь людям с дислексией, но другие нарушения все еще остаются под вопросом. Эффективность продукта - это проблема, которая мешает ему быть эффективным. Хотя ребенок может произнести слово в зависимости от того, насколько ясно он это говорит, технология может подумать, что он произносит другое слово, и ввести неправильное. Дать им больше работы, чтобы исправить, заставляя их тратить больше времени на исправление неправильного слова.[101]
Дальнейшие приложения
- Аэрокосмическая промышленность (например. исследование космоса, космический корабль и т. д.) НАСА Марс полярный посадочный модуль использовала технологию распознавания речи от Sensory, Inc. в марсианском микрофоне на посадочном модуле[102]
- Автоматический субтитры с распознаванием речи
- Автоматический распознавание эмоций[103]
- Автоматический перевод
- Отчетность в суде (Написание речи в реальном времени)
- eDiscovery (Юридическое открытие)
- Компьютеры без рук: Компьютер распознавания речи пользовательский интерфейс
- Домашняя автоматизация
- Интерактивный голосовой отклик
- Мобильная телефония, включая мобильную электронную почту
- Мультимодальное взаимодействие[53]
- Произношение оценка в приложениях для компьютерного обучения языку
- В реальном времени Субтитры[нужна цитата ]
- Робототехника
- Безопасность, включая использование с другими биометрическими сканерами для многофакторная аутентификация[104]
- Речь в текст (транскрипция речи в текст, видео в реальном времени субтитры, Судебная отчетность)
- Телематика (например, автомобильные навигационные системы)
- Транскрипция (преобразование речи в текст)
- Видеоигры, с EndWar Тома Клэнси и Мост жизни как рабочие примеры
- Виртуальный помощник (например. Siri от Apple )
Спектакль
Производительность систем распознавания речи обычно оценивается с точки зрения точности и скорости.[105][106] Точность обычно оценивается частота ошибок в словах (WER), а скорость измеряется фактор реального времени. Другие меры точности включают: Частота ошибок одного слова (SWER) и Скорость выполнения команды (CSR).
Однако распознавание речи машиной - очень сложная проблема. Вокализации различаются по акценту, произношению, артикуляции, грубости, назальности, высоте звука, громкости и скорости. Речь искажена фоновым шумом и эхом, электрическими характеристиками. Точность распознавания речи может варьироваться в зависимости от следующего:[107][нужна цитата ]
- Размер словарного запаса и путаница
- Зависимость от говорящего против независимости
- Изолированная, прерывистая или непрерывная речь
- Задачи и языковые ограничения
- Чтение против спонтанной речи
- Неблагоприятные условия
Точность
Как упоминалось ранее в этой статье, точность распознавания речи может варьироваться в зависимости от следующих факторов:
- Количество ошибок увеличивается по мере увеличения словарного запаса:
- например 10 цифр от «нуля» до «девяти» можно распознать практически идеально, но словарный запас размером 200, 5000 или 100000 может иметь коэффициент ошибок 3%, 7% или 45% соответственно.
- Словарь сложно распознать, если он содержит непонятные слова:
- например 26 букв английского алфавита трудно различить, потому что они сбивают с толку слова (наиболее известный E-набор: «B, C, D, E, G, P, T, V, Z»); 8% ошибок считается хорошим для этого словаря.[нужна цитата ]
- Зависимость от говорящего против независимости:
- Система, зависящая от динамика, предназначена для использования одним динамиком.
- Система, не зависящая от динамика, предназначена для использования любым динамиком (сложнее).
- Изолированная, прерывистая или непрерывная речь
- В изолированной речи используются отдельные слова, поэтому речь становится легче распознать.
При прерывистой речи используются полные предложения, разделенные тишиной, поэтому становится легче распознавать речь, а также изолированную речь.
При непрерывной речи используются естественно произносимые предложения, поэтому становится труднее распознать речь, отличную как от изолированной, так и от прерывистой речи.
- Задачи и языковые ограничения
- например Запрашивающее приложение может отклонить гипотезу «Яблоко красное».
- например Ограничения могут быть семантическими; отвергая «Яблоко сердится».
- например Синтаксический; отвергая "красное яблоко песня".
Ограничения часто представлены грамматикой.
- Чтение против спонтанной речи - когда человек читает это обычно в заранее подготовленном контексте, но когда человек использует спонтанную речь, его трудно распознать из-за недостатков (таких как «э-э» и «э-э», фальстарт, неполные предложения, заикание, кашель и смех) и ограниченный словарный запас.
- Неблагоприятные условия - шум окружающей среды (например, шум в машине или на заводе). Акустические искажения (например, эхо, акустика помещения)
Распознавание речи - это многоуровневая задача распознавания образов.
- Акустические сигналы структурированы в виде иерархии единиц, например Фонемы, Слова, фразы и предложения;
- Каждый уровень предоставляет дополнительные ограничения;
например Известные произношения слов или допустимые последовательности слов, которые могут компенсировать ошибки или неопределенности на более низком уровне;
- Эта иерархия ограничений используется. За счет вероятностного комбинирования решений на всех более низких уровнях и принятия более детерминированных решений только на самом высоком уровне распознавание речи машиной представляет собой процесс, разбитый на несколько этапов. С вычислительной точки зрения, это проблема, в которой звуковой образец должен быть распознан или классифицирован в категорию, которая представляет значение для человека. Каждый акустический сигнал может быть разбит на более мелкие более базовые субсигналы. Поскольку более сложный звуковой сигнал разбивается на более мелкие суб-звуки, создаются разные уровни, где на верхнем уровне у нас есть сложные звуки, которые состоят из более простых звуков на более низком уровне, а при переходе на более низкие уровни мы создаем более простые, более короткие и простые звуки. На самом низком уровне, где звуки являются наиболее фундаментальными, машина проверяет простые и более вероятные правила того, что должен представлять звук. Как только эти звуки объединены в более сложный звук на верхнем уровне, новый набор более детерминированных правил должен предсказать, что должен представлять новый сложный звук. Самый верхний уровень детерминированного правила должен выяснить значение сложных выражений. Чтобы расширить наши знания о распознавании речи, нам необходимо принять во внимание нейронные сети. Есть четыре этапа нейросетевого подхода:
- Оцифруйте речь, которую мы хотим распознать
Для телефонной речи частота дискретизации составляет 8000 выборок в секунду;
- Вычислить особенности спектральной области речи (с преобразованием Фурье);
вычисляется каждые 10 мс, причем одна секция 10 мс называется кадром;
Анализ четырехэтапных подходов нейронных сетей можно объяснить дополнительной информацией. Звук создается вибрацией воздуха (или другой среды), которую мы воспринимаем ушами, а машины - приемниками. Базовый звук создает волну, имеющую два описания: амплитуда (насколько он силен), и частота (как часто он вибрирует в секунду). Точность может быть вычислена с помощью коэффициента ошибок по словам (WER). Коэффициент ошибок в словах можно рассчитать путем выравнивания распознанного слова и слова, на которое имеется ссылка, с помощью динамического выравнивания строк. Проблема может возникнуть при вычислении частоты ошибок по словам из-за разницы между длиной последовательности распознанного слова и слова, на которое ссылаются. Позволять
S - количество замен, D - количество удалений, I - количество вставок, N - количество ссылок на слова.
Формула для вычисления коэффициента ошибок по словам (WER):
WER = (S + D + I) ÷ N
При вычислении коэффициента распознавания слов (WRR) используется коэффициент ошибок по слову (WER), и формула
WRR = 1- WER = (N-S-D-I) ÷ N = (H-I) ÷ N
Здесь H - количество правильно распознанных слов. Н = N- (S + D).
Проблемы безопасности
Распознавание речи может стать средством нападения, кражи или случайного действия. Например, слова активации, такие как «Alexa», произносимые во время аудио- или видеотрансляции, могут привести к тому, что устройства в домах и офисах начнут неправильно прослушивать ввод или, возможно, предпримут нежелательные действия.[108] Устройства с голосовым управлением также доступны для посетителей здания или даже для тех, кто находится за пределами здания, если их слышно внутри. Злоумышленники могут получить доступ к личной информации, такой как календарь, содержимое адресной книги, личные сообщения и документы. Они также могут выдавать себя за пользователя для отправки сообщений или совершения покупок в Интернете.
Были продемонстрированы две атаки с использованием искусственных звуков. Один передает ультразвук и пытается посылать команды незаметно для окружающих.[109] Другой добавляет небольшие неслышимые искажения в другую речь или музыку, которые специально созданы для того, чтобы сбить с толку конкретную систему распознавания речи и заставить ее распознавать музыку как речь или сделать то, что звучит как одна команда для человека, звучит как другая команда для системы.[110]
Дальнейшая информация
Конференции и журналы
Популярные конференции по распознаванию речи, проводимые раз в год или два, включают SpeechTEK и SpeechTEK Europe, ICASSP, Межречевой / Eurospeech и IEEE ASRU. Конференции в области обработка естественного языка, Такие как ACL, NAACL, EMNLP и HLT начинают включать статьи по обработка речи. Важные журналы включают IEEE Транзакции по обработке речи и звука (позже переименовано IEEE Транзакции по обработке звука, речи и языка и с сентября 2014 года переименованы в IEEE / ACM-транзакции по обработке звука, речи и языка - после слияния с публикацией ACM), компьютерной речи и языка и речевой коммуникации.
Книги
Такие книги, как "Основы распознавания речи" автора Лоуренс Рабинер могут быть полезны для получения базовых знаний, но могут не быть полностью актуальными (1993 г.). Еще одним хорошим источником могут быть «Статистические методы распознавания речи» автора Фредерик Елинек и "Обработка разговорной речи (2001)" автора Сюэдун Хуанг и т. д., "Компьютерная речь", автор: Манфред Р. Шредер, второе издание, опубликованное в 2004 г., и «Обработка речи: динамический и оптимизационно-ориентированный подход», опубликованные в 2003 г. Ли Денг и Дуг О'Шогнесси. Обновленный учебник Обработка речи и языка (2008) автор Юрафски и Мартин представляет основы и современное состояние ASR. Распознавание спикера также использует те же функции, большую часть той же внешней обработки и методы классификации, что и при распознавании речи. Исчерпывающий учебник «Основы распознавания говорящих» является подробным источником последних сведений по теории и практике.[111] Хорошее представление о методах, используемых в лучших современных системах, можно получить, обратив внимание на оценки, спонсируемые государством, например, организованные DARPA (самый крупный проект, связанный с распознаванием речи, продолжающийся с 2007 года, - это проект GALE, который включает компоненты как распознавания речи, так и перевода).
Хорошее и доступное введение в технологию распознавания речи и ее историю дает книга для широкой аудитории "Голос в машине. Создание компьютеров, которые понимают речь" автора Роберто Пьерачини (2012).
Самая последняя книга по распознаванию речи Автоматическое распознавание речи: подход глубокого обучения (Издатель: Springer), написанный исследователями Microsoft Д. Ю и Л. Денг и опубликованный в конце 2014 г., с высоко математически ориентированными техническими подробностями о том, как методы глубокого обучения выводятся и реализуются в современных системах распознавания речи на основе DNN и связанных с ними глубоких методы обучения.[73] В связанной книге, опубликованной ранее в 2014 г., «Глубокое обучение: методы и приложения» Л. Дэн и Д. Ю, представлен менее технический, но более ориентированный на методологию обзор распознавания речи на основе DNN в период 2009–2014 гг. общий контекст приложений глубокого обучения, включая не только распознавание речи, но также распознавание изображений, обработку естественного языка, поиск информации, мультимодальную обработку и многозадачное обучение.[69]
Программного обеспечения
Что касается свободно доступных ресурсов, Университет Карнеги Меллон с Сфинкс Инструментарий - это одно из первых мест, с которого можно научиться распознавать речь и начать экспериментировать. Другой ресурс (бесплатный, но защищенный авторским правом) - это HTK книга (и сопутствующий инструментарий HTK). Для получения более свежих и современных методов, Kaldi инструментарий можно использовать.[нужна цитата ] В 2017 г. Mozilla запустил проект с открытым исходным кодом под названием Общий голос[112] собрать большую базу данных голосов, которая поможет построить проект по распознаванию свободы речи DeepSpeech (доступно бесплатно на GitHub )[113] с использованием платформы Google с открытым исходным кодом TensorFlow.[114]
Коммерческие облачные API распознавания речи широко доступны в AWS, Azure,[115] IBM и GCP.
Демонстрация интерактивного распознавателя речи доступна на веб-странице Cobalt.[116]
Дополнительные ресурсы по программному обеспечению см. Список программ распознавания речи.
Смотрите также
- Эффект ИИ
- ALPAC
- Приложения искусственного интеллекта
- Распознавание артикуляционной речи
- Аудио майнинг
- Аудиовизуальное распознавание речи
- Автоматический переводчик языков
- Автомобильное головное устройство
- Модель языка кеширования
- Дракон Естественно
- Свободное владение голосом
- Google Voice Search
- IBM ViaVoice
- Определение ключевых слов
- Kinect
- Mondegreen
- Поиск мультимедийной информации
- Происхождение речи
- Технология фонетического поиска
- Диаризация спикера
- Распознавание спикера
- Речевая аналитика
- Рекомендации по речевому интерфейсу
- Программное обеспечение для распознавания речи для Linux
- Синтез речи
- Проверка речи
- Субтитры (титры)
- VoiceXML
- VoxForge
- Распознавание речи Windows
- Списки
Рекомендации
- ^ «Независимое распознавание речи оратора - компьютерная корпорация пятого поколения». Fifthgen.com. В архиве из оригинала 11 ноября 2013 г.. Получено 15 июн 2013.
- ^ П. Нгуен (2010). «Автоматическая классификация характеристик динамика». Международная конференция по связи и электронике 2010. С. 147–152. Дои:10.1109 / ICCE.2010.5670700. ISBN 978-1-4244-7055-6. S2CID 13482115.
- ^ «Британское английское определение распознавания голоса». Macmillan Publishers Limited. В архиве из оригинала 16 сентября 2011 г.. Получено 21 февраля 2012.
- ^ "распознавание голоса, определение". WebFinance, Inc. В архиве из оригинала от 3 декабря 2011 г.. Получено 21 февраля 2012.
- ^ "Почтовый мешок LG # 114". Linuxgazette.net. В архиве из оригинала 19 февраля 2013 г.. Получено 15 июн 2013.
- ^ Саранги, Сусанта; Сахидулла, штат Мэриленд; Саха, Гоутам (сентябрь 2020 г.). «Оптимизация набора фильтров на основе данных для автоматической проверки говорящего». Цифровая обработка сигналов. 104: 102795. arXiv:2007.10729. Дои:10.1016 / j.dsp.2020.102795. S2CID 220665533.
- ^ Рейнольдс, Дуглас; Роуз, Ричард (январь 1995 г.). «Надежная независимая от текста идентификация говорящего с использованием моделей говорящего на смеси Гаусса» (PDF). Транзакции IEEE по обработке речи и звука. 3 (1): 72–83. Дои:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. В архиве (PDF) из оригинала 8 марта 2014 г.. Получено 21 февраля 2014.
- ^ «Идентификация говорящего (WhisperID)». Microsoft Research. Microsoft. В архиве из оригинала 25 февраля 2014 г.. Получено 21 февраля 2014.
Когда вы говорите с кем-то, они не просто узнают то, что вы говорите: они узнают, кто вы. WhisperID позволяет компьютерам делать то же самое, выясняя, кто вы, по тому, как вы говорите.
- ^ «Некрологи: Стивен Балашек». Стар-Леджер. 22 июля 2012 г.
- ^ "IBM-Shoebox-front.jpg". androidauthority.net. Получено 4 апреля 2019.
- ^ Juang, B.H .; Рабинер, Лоуренс Р. «Автоматическое распознавание речи - краткая история развития технологий» (PDF): 6. В архиве (PDF) из оригинала 17 августа 2014 г.. Получено 17 января 2015. Цитировать журнал требует
| журнал =
(помощь) - ^ а б Мелани Пинола (2 ноября 2011 г.). «Распознавание речи на протяжении десятилетий: как мы закончили с Siri». Компьютерный мир. Получено 22 октября 2018.
- ^ Грей, Роберт М. (2010). "История цифровой речи в режиме реального времени в пакетных сетях: Часть II линейного прогнозного кодирования и Интернет-протокола" (PDF). Найденный. Тенденции сигнального процесса. 3 (4): 203–303. Дои:10.1561/2000000036. ISSN 1932-8346.
- ^ Джон Р. Пирс (1969). «Куда распознавание речи?». Журнал Акустического общества Америки. 46 (48): 1049–1051. Bibcode:1969ASAJ ... 46.1049P. Дои:10.1121/1.1911801.
- ^ Бенести, Джейкоб; Sondhi, M. M .; Хуанг, Итэн (2008). Справочник Springer по обработке речи. Springer Science & Business Media. ISBN 978-3540491255.
- ^ Джон Махоул. «Медалист ISCA: за лидерство и большой вклад в обработку речи и языка». В архиве из оригинала 24 января 2018 г.. Получено 23 января 2018.
- ^ Blechman, R.O .; Блехман, Николай (23 июня 2008 г.). "Привет, Хэл". Житель Нью-Йорка. В архиве из оригинала 20 января 2015 г.. Получено 17 января 2015.
- ^ Клатт, Деннис Х. (1977). «Обзор проекта ARPA по пониманию речи». Журнал акустического общества Америки. 62 (6): 1345–1366. Bibcode:1977ASAJ ... 62.1345K. Дои:10.1121/1.381666.
- ^ Рабинера (1984). "Общество акустики, речи и обработки сигналов. Историческая перспектива" (PDF). В архиве (PDF) с оригинала 9 августа 2017 г.. Получено 23 января 2018. Цитировать журнал требует
| журнал =
(помощь) - ^ «Из первых рук: скрытая марковская модель - вики по истории инженерии и технологий». ethw.org. В архиве из оригинала 3 апреля 2018 г.. Получено 1 мая 2018.
- ^ а б "Интервью Джеймса Бейкера". В архиве с оригинала 28 августа 2017 г.. Получено 9 февраля 2017.
- ^ «Новаторское распознавание речи». 7 марта 2012 г. В архиве из оригинала 19 февраля 2015 г.. Получено 18 января 2015.
- ^ а б c Сюэдун Хуанг; Джеймс Бейкер; Радж Редди. «Историческая перспектива распознавания речи». Коммуникации ACM. В архиве из оригинала 20 января 2015 г.. Получено 20 января 2015.
- ^ Juang, B.H .; Рабинер, Лоуренс Р. «Автоматическое распознавание речи - краткая история развития технологий» (PDF): 10. В архиве (PDF) из оригинала 17 августа 2014 г.. Получено 17 января 2015. Цитировать журнал требует
| журнал =
(помощь) - ^ «История распознавания речи». Медицинская транскрипция дракона. Архивировано из оригинал 13 августа 2015 г.. Получено 17 января 2015.
- ^ Кевин Маккин (8 апреля 1980 г.). «Когда Коул говорит, компьютеры слушают». Сарасота Журнал. AP. Получено 23 ноября 2015.
- ^ Мелани Пинола (2 ноября 2011 г.). «Распознавание речи на протяжении десятилетий: как мы закончили с Siri». Компьютерный мир. В архиве из оригинала 13 января 2017 г.. Получено 28 июля 2017.
- ^ "Биография Рэя Курцвейла". KurzweilAINetwork. В архиве из оригинала 5 февраля 2014 г.. Получено 25 сентября 2014.
- ^ Juang, B.H .; Рабинер, Лоуренс. «Автоматическое распознавание речи - краткая история развития технологий» (PDF). В архиве (PDF) с оригинала 9 августа 2017 г.. Получено 28 июля 2017. Цитировать журнал требует
| журнал =
(помощь) - ^ «Nuance Exec для iPhone 4S, Siri и будущее речи». Тех. Винты. 10 октября 2011 г. В архиве из оригинала 19 ноября 2011 г.. Получено 23 ноября 2011.
- ^ «Коммутатор-1 Выпуск 2». В архиве из оригинала 11 июля 2017 г.. Получено 26 июля 2017.
- ^ Джейсон Кинкейд. "Сила голоса: беседа с руководителем отдела речевых технологий Google". Технический кризис. В архиве из оригинала 21 июля 2015 г.. Получено 21 июля 2015.
- ^ Фрумкин, Дэн (5 мая 2015 г.). «КОМПЬЮТЕРЫ СЛУШАЮТ». Перехват. В архиве из оригинала 27 июня 2015 г.. Получено 20 июн 2015.
- ^ Эрве Бурлар и Нельсон Морган, Коннекционистское распознавание речи: гибридный подход, Международная серия Kluwer в области инженерии и информатики; т. 247, Бостон: Kluwer Academic Publishers, 1994.
- ^ а б Зепп Хохрайтер; Я. Шмидхубер (1997). «Кратковременная долговременная память». Нейронные вычисления. 9 (8): 1735–1780. Дои:10.1162 / neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
- ^ Шмидхубер, Юрген (2015). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети. 61: 85–117. arXiv:1404.7828. Дои:10.1016 / j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
- ^ Алекс Грейвс, Сантьяго Фернандес, Фаустино Гомес и Юрген Шмидхубер (2006). Временная классификация коннекционистов: маркировка несегментированных данных последовательностей с помощью повторяющихся нейронных сетей. Материалы ICML'06. С. 369–376.
- ^ Сантьяго Фернандес, Алекс Грейвс и Юрген Шмидхубер (2007). Применение рекуррентных нейронных сетей для распознавания ключевых слов. Протоколы ICANN (2), стр. 220–229.
- ^ а б Хашим Сак, Эндрю Старший, Канишка Рао, Франсуаза Бофейс и Йохан Шалквик (сентябрь 2015 г.): "Голосовой поиск Google: быстрее и точнее." В архиве 9 марта 2016 г. Wayback Machine
- ^ "Ли Дэн". Сайт Ли Дэн.
- ^ Семинар NIPS: Глубокое обучение для распознавания речи и связанных приложений, Уистлер, Британская Колумбия, Канада, декабрь 2009 г. (Организаторы: Ли Дэн, Джефф Хинтон, Д. Ю).
- ^ а б c Хинтон, Джеффри; Дэн Ли; Ю, Донг; Даль, Джордж; Мохамед, Абдель-Рахман; Джайтли, Навдип; Старший, Андрей; Ванхаук, Винсент; Нгуен, Патрик; Саинат, Тара; Кингсбери, Брайан (2012). «Глубокие нейронные сети для акустического моделирования в распознавании речи: общие взгляды четырех исследовательских групп». Журнал IEEE Signal Processing Magazine. 29 (6): 82–97. Bibcode:2012ISPM ... 29 ... 82H. Дои:10.1109 / MSP.2012.2205597. S2CID 206485943.
- ^ а б Deng, L .; Hinton, G .; Кингсбери, Б. (2013). «Новые типы глубокого обучения нейронной сети для распознавания речи и связанных приложений: обзор». Международная конференция IEEE 2013 года по акустике, обработке речи и сигналов: новые типы глубокого обучения нейронных сетей для распознавания речи и связанных приложений: обзор. п. 8599. Дои:10.1109 / ICASSP.2013.6639344. ISBN 978-1-4799-0356-6. S2CID 13953660.
- ^ а б Марков, Джон (23 ноября 2012 г.). «Ученые видят перспективы в программах глубокого обучения». Нью-Йорк Таймс. В архиве из оригинала 30 ноября 2012 г.. Получено 20 января 2015.
- ^ Морган, Бурлард, Реналс, Коэн, Франко (1993) "Гибридные нейронные сети / системы скрытых марковских моделей для распознавания непрерывной речи. ICASSP / IJPRAI"
- ^ Т. Робинсон (1992). «Система распознавания слов сети распространения повторяющихся ошибок в реальном времени». [Труды] ICASSP-92: 1992 Международная конференция IEEE по акустике, речи и обработке сигналов. С. 617–620 т.1. Дои:10.1109 / ICASSP.1992.225833. ISBN 0-7803-0532-9. S2CID 62446313.
- ^ Вайбель, Ханадзава, Хинтон, Шикано, Ланг. (1989) "Распознавание фонем с использованием нейронных сетей с задержкой. IEEE Transactions по акустике, речи и обработке сигналов ».
- ^ Baker, J .; Ли Дэн; Glass, J .; Худанпур, С .; Чин-Хуэй Ли; Morgan, N .; О'Шонесси, Д. (2009). «Развитие и направления в распознавании и понимании речи, часть 1». Журнал IEEE Signal Processing Magazine. 26 (3): 75–80. Bibcode:2009ISPM ... 26 ... 75B. Дои:10.1109 / MSP.2009.932166. S2CID 357467.
- ^ Зепп Хохрайтер (1991), Untersuchungen zu Dynamischen Neuronalen Netzen В архиве 6 марта 2015 г. Wayback Machine, Дипломная работа. Institut f. Informatik, Technische Univ. Мюнхен. Советник: Я. Шмидхубер.
- ^ Бенджио Ю. (1991). Искусственные нейронные сети и их применение для распознавания речи / последовательности (Кандидат наук.). Университет Макгилла.
- ^ Deng, L .; Hassanein, K .; Элмасри, М. (1994). «Анализ корреляционной структуры для нейронной прогнозирующей модели с приложением к распознаванию речи». Нейронные сети. 7 (2): 331–339. Дои:10.1016/0893-6080(94)90027-2.
- ^ Основной доклад: Последние разработки в глубоких нейронных сетях. ICASSP, 2013 (Джефф Хинтон).
- ^ а б Основной доклад: "Достижения и проблемы глубокого обучения: от анализа и распознавания речи до языка и мультимодальной обработки, "Interspeech", сентябрь 2014 г. (автор: Ли Дэн ).
- ^ «Улучшения в программном обеспечении распознавания голоса увеличиваются». TechRepublic.com. 27 августа 2002 г.
Манерс сказал, что IBM работает над улучшением распознавания речи ... или в зале шумной торговой выставки.
- ^ «Распознавание голоса для облегчения бронирования путешествий: новости деловых поездок». BusinessTravelNews.com. 3 марта 1997 г.
Самыми ранними приложениями программного обеспечения для распознавания речи были диктовки ... Четыре месяца назад IBM представила «продукт для непрерывной диктовки», разработанный для ... дебютировавшего на выставке National Business Travel Association в 1994 году.
- ^ Эллис Букер (14 марта 1994 г.). «Распознавание голоса становится популярным». Computerworld. п. 45.
Всего несколько лет назад распознавание речи ограничивалось ...
- ^ «Исследователи Microsoft достигли нового рубежа в распознавании разговорной речи». 21 августа 2017.
- ^ Гоэль, Вайбхава; Бирн, Уильям Дж. (2000). «Автоматическое распознавание речи с минимальным байесовским риском». Компьютерная речь и язык. 14 (2): 115–135. Дои:10.1006 / csla.2000.0138. В архиве из оригинала 25 июля 2011 г.. Получено 28 марта 2011.
- ^ Мохри, М. (2002). «Дистанция редактирования взвешенных автоматов: общие определения и алгоритмы» (PDF). Международный журнал основ информатики. 14 (6): 957–982. Дои:10.1142 / S0129054103002114. В архиве (PDF) из оригинала 18 марта 2012 г.. Получено 28 марта 2011.
- ^ Waibel, A .; Hanazawa, T .; Hinton, G .; Shikano, K .; Ланг, К. Дж. (1989). «Распознавание фонем с помощью нейронных сетей с запаздыванием». Транзакции IEEE по акустике, речи и обработке сигналов. 37 (3): 328–339. Дои:10.1109/29.21701. HDL:10338.dmlcz / 135496.
- ^ Bird, Jordan J .; Ваннер, Элизабет; Экарт, Анико; Фариа, Диего Р. (2020). «Оптимизация фонетического распознавания речи с помощью многоцелевых эволюционных алгоритмов». Экспертные системы с приложениями. Elsevier BV. 153: 113402. Дои:10.1016 / j.eswa.2020.113402. ISSN 0957-4174.
- ^ Wu, J .; Чан, К. (1993). «Распознавание изолированных слов с помощью моделей нейронных сетей с коэффициентами кросс-корреляции для динамики речи». IEEE Transactions по анализу шаблонов и машинному анализу. 15 (11): 1174–1185. Дои:10.1109/34.244678.
- ^ С. А. Захорян, А. М. Циммер и Ф. Менг, (2002) "Классификация гласных для компьютерной визуальной обратной связи для обучения речи для слабослышащих, "в ICSLP 2002
- ^ Ху, Хунбинь; Захориан, Стивен А. (2010). "Методы уменьшения размерности для фонетического распознавания HMM" (PDF). ICASSP 2010. В архиве (PDF) из оригинала от 6 июля 2012 г.
- ^ Фернандес, Сантьяго; Грейвс, Алекс; Шмидхубер, Юрген (2007). «Маркировка последовательностей в структурированных доменах с иерархическими рекуррентными нейронными сетями» (PDF). Труды IJCAI. В архиве (PDF) с оригинала 15 августа 2017 года.
- ^ Грейвс, Алекс; Мохамед, Абдель-Рахман; Хинтон, Джеффри (2013). «Распознавание речи с помощью глубоких рекуррентных нейронных сетей». arXiv:1303.5778 [cs.NE ]. ICASSP 2013.
- ^ Вайбель, Алекс (1989). «Модульное построение нейронных сетей с задержкой для распознавания речи» (PDF). Нейронные вычисления. 1 (1): 39–46. Дои:10.1162 / neco.1989.1.1.39. S2CID 236321. В архиве (PDF) из оригинала от 29 июня 2016 г.
- ^ Maas, Andrew L .; Le, Quoc V .; О'Нил, Тайлер М .; Виньялс, Ориол; Нгуен, Патрик; Нг, Эндрю Ю. (2012). «Рекуррентные нейронные сети для снижения шума в надежном ASR». Труды Interspeech 2012.
- ^ а б Дэн Ли; Ю, Донг (2014). «Глубокое обучение: методы и приложения» (PDF). Основы и тенденции в обработке сигналов. 7 (3–4): 197–387. CiteSeerX 10.1.1.691.3679. Дои:10.1561/2000000039. В архиве (PDF) из оригинала от 22 октября 2014 г.
- ^ Ю, Д .; Deng, L .; Даль, Г. (2010). «Роли предварительного обучения и тонкой настройки в контекстно-зависимых DBN-HMM для распознавания речи в реальном мире» (PDF). Семинар NIPS по глубокому обучению и неконтролируемому обучению функций.
- ^ Даль, Джордж Э .; Ю, Донг; Дэн Ли; Асеро, Алекс (2012). «Контекстно-зависимые предварительно обученные глубокие нейронные сети для распознавания речи с большим словарным запасом». Транзакции IEEE по обработке звука, речи и языка. 20 (1): 30–42. Дои:10.1109 / TASL.2011.2134090. S2CID 14862572.
- ^ Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al. Последние достижения в области глубокого обучения для исследования речи в Microsoft. ICASSP, 2013.
- ^ а б Ю, Д .; Дэн, Л. (2014). «Автоматическое распознавание речи: подход глубокого обучения (Издатель: Springer)». Цитировать журнал требует
| журнал =
(помощь) - ^ Deng, L .; Ли, Сяо (2013). «Парадигмы машинного обучения для распознавания речи: обзор» (PDF). Транзакции IEEE по обработке звука, речи и языка. 21 (5): 1060–1089. Дои:10.1109 / TASL.2013.2244083. S2CID 16585863.
- ^ Шмидхубер, Юрген (2015). «Глубокое обучение». Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. Дои:10.4249 / scholarpedia.32832.
- ^ Л. Денг, М. Зельцер, Д. Ю, А. Асеро, А. Мохамед и Г. Хинтон (2010) Двоичное кодирование речевых спектрограмм с использованием глубинного автокодировщика. Межречье.
- ^ Тюске, Золтан; Голик, Павел; Шлютер, Ральф; Ней, Герман (2014). «Акустическое моделирование с помощью глубоких нейронных сетей с использованием необработанного сигнала времени для LVCSR» (PDF). Интерспич 2014. В архиве (PDF) из оригинала 21 декабря 2016 г.
- ^ Джурафски, Даниэль (2016). Обработка речи и языка.
- ^ Могилы, Алекс (2014). «На пути к сквозному распознаванию речи с рекуррентными нейронными сетями» (PDF). ICML.
- ^ Амодеи, Дарио (2016). «Глубокая речь 2: Сквозное распознавание речи на английском и мандаринском языках». arXiv:1512.02595 [cs.CL ].
- ^ "LipNet: Как вы думаете, насколько легко читать по губам?". YouTube. В архиве из оригинала 27 апреля 2017 г.. Получено 5 мая 2017.
- ^ Ассаэль, Яннис; Шиллингфорд, Брендан; Уайтсон, Шимон; де Фрейтас, Нандо (5 ноября 2016 г.). «LipNet: чтение по губам на уровне предложения». arXiv:1611.01599 [cs.CV ].
- ^ Шиллингфорд, Брендан; Ассаэль, Яннис; Хоффман, Мэтью В .; Пейн, Томас; Хьюз, Сиан; Прабху, Утсав; Ляо, Хэнк; Сак, хасим; Рао, Канишка (13 июля 2018 г.). «Крупномасштабное визуальное распознавание речи». arXiv:1807.05162 [cs.CV ].
- ^ Чан, Уильям; Джайтли, Навдип; Ле, Куок; Виньялс, Ориол (2016). «Слушайте, посещайте и пишите: нейронная сеть для распознавания разговорной речи с большим словарным запасом» (PDF). ICASSP.
- ^ Богданов, Дмитрий (2016). «Сквозное распознавание речи с большим словарным запасом на основе внимания». arXiv:1508.04395 [cs.CL ].
- ^ Хоровски, Ян; Джайтли, Навдип (8 декабря 2016 г.). «На пути к лучшему декодированию и интеграции языковых моделей последовательно с моделями последовательностей». arXiv:1612.02695 [cs.NE ].
- ^ Чан, Уильям; Чжан, Ю; Ле, Куок; Джайтли, Навдип (10 октября 2016 г.). «Скрытые разложения последовательности». arXiv:1610.03035 [stat.ML ].
- ^ Чунг, Джун Сон; Старший, Андрей; Виньялс, Ориол; Зиссерман, Андрей (16 ноября 2016 г.). «Приговоры для чтения по губам в дикой природе». arXiv:1611.05358 [cs.CV ].
- ^ Инглунд, Кристина (2004). Распознавание речи в самолете JAS 39 Gripen: адаптация к речи при различных перегрузках (PDF) (Дипломная работа). Стокгольмский Королевский технологический институт. В архиве (PDF) из оригинала 2 октября 2008 г.
- ^ "Кабина". Еврофайтер Тайфун. В архиве из оригинала от 1 марта 2017 г.
- ^ «Еврофайтер Тайфун - Самый совершенный истребитель в мире». www.eurofighter.com. В архиве из оригинала 11 мая 2013 г.. Получено 1 мая 2018.
- ^ Шютте, Джон (15 октября 2007 г.). «Исследователи отлаживают речевую систему пилота F-35». ВВС США. Архивировано из оригинал 20 октября 2007 г.
- ^ Серф, Винтон; Врубель, Роб; Шервуд, Сьюзен. «Может ли программное обеспечение для распознавания речи преодолеть языковые барьеры в образовании?». Curiosity.com. Discovery Communications. Архивировано из оригинал 7 апреля 2014 г.. Получено 26 марта 2014.
- ^ а б «Распознавание речи для обучения». Национальный центр технологических инноваций. 2010 г. В архиве из оригинала 13 апреля 2014 г.. Получено 26 марта 2014.
- ^ Фолленсби, Боб; Макклоски-Дейл, Сьюзен (2000). «Распознавание речи в школах: новости с мест». Конференция "Технологии и люди с ограниченными возможностями" 2000 г.. В архиве из оригинала 21 августа 2006 г.. Получено 26 марта 2014.
- ^ «Преодоление коммуникационных барьеров в классе». MassMATCH. 18 марта 2010 г. В архиве из оригинала 25 июля 2013 г.. Получено 15 июн 2013.
- ^ «Распознавание речи для инвалидов». В архиве из оригинала от 4 апреля 2008 г.
- ^ Международная группа поддержки друзей
- ^ Гарретт, Дженнифер Тумлин; и другие. (2011). «Использование программного обеспечения для распознавания речи для повышения беглости письма для людей с физическими недостатками». Журнал технологий специального образования. 26 (1): 25–41. Дои:10.1177/016264341102600104. S2CID 142730664.
- ^ Форгрейв, Карен Э. «Вспомогательные технологии: расширение прав и возможностей студентов с ограниченными возможностями». Информационный центр 75.3 (2002): 122–6. Интернет.
- ^ Tang, K. W .; Камуа, Рида; Сутан, Виктор (2004). «Технология распознавания речи для обучения инвалидов». Журнал систем образовательных технологий. 33 (2): 173–84. CiteSeerX 10.1.1.631.3736. Дои:10.2190 / K6K8-78K2-59Y7-R9R2. S2CID 143159997.
- ^ «Проекты: Планетарные микрофоны». Планетарное общество. Архивировано из оригинал 27 января 2012 г.
- ^ Каридакис, Джордж; Кастеллано, Джиневра; Кессоус, Лоик; Raouzaiou, Amaryllis; Малатеста, Лори; Астериадис, Стелиос; Карпузис, Костас (19 сентября 2007 г.). Мультимодальное распознавание эмоций по выразительным лицам, жестам тела и речи. IFIP Международная федерация обработки информации. 247. Springer США. С. 375–388. Дои:10.1007/978-0-387-74161-1_41. ISBN 978-0-387-74160-4.
- ^ Чжэн, Томас Фанг; Ли, Ланьтянь (2017). Проблемы, связанные с надежностью распознавания говорящего. SpringerBriefs в области электротехники и вычислительной техники. Сингапур: Springer Singapore. Дои:10.1007/978-981-10-3238-7. ISBN 978-981-10-3237-0.
- ^ Чарамелла, Альберто. «Отчет об оценке производительности прототипа». Набор солнечных часов 8000 (1993).
- ^ Гербино, Э .; Baggia, P .; Ciaramella, A .; Руллент, К. (1993). «Тестирование и оценка системы разговорного диалога». Международная конференция IEEE по акустике обработки речи и сигналов. С. 135–138 т.2. Дои:10.1109 / ICASSP.1993.319250. ISBN 0-7803-0946-4. S2CID 57374050.
- ^ Национальный институт стандартов и технологий. "История оценки автоматического распознавания речи в NIST В архиве 8 октября 2013 г. Wayback Machine ".
- ^ «Слушайте: ваш помощник по искусственному интеллекту сходит с ума и от NPR». энергетический ядерный реактор. 6 марта 2016. В архиве из оригинала от 23 июля 2017 г.
- ^ Клэберн, Томас (25 августа 2017 г.). «Можно ли управлять Amazon Alexa, Google Now с помощью неслышимых команд? Абсолютно». Реестр. В архиве из оригинала 2 сентября 2017 года.
- ^ «Атака на системы автоматического распознавания речи». Vice.com. 31 января 2018. В архиве из оригинала 3 марта 2018 г.. Получено 1 мая 2018.
- ^ Бейги, Хомаюн (2011). Основы распознавания говорящего. Нью-Йорк: Спрингер. ISBN 978-0-387-77591-3. В архиве с оригинала на 31 января 2018 г.
- ^ «Общий голос от Mozilla». voice.mozilla.org.
- ^ «Реализация TensorFlow архитектуры Baidu DeepSpeech: mozilla / DeepSpeech». 9 ноября 2019 г. - через GitHub.
- ^ «GitHub - tensorflow / docs: документация TensorFlow». 9 ноября 2019 г. - через GitHub.
- ^ «Службы когнитивной речи | Microsoft Azure». azure.microsoft.com.
- ^ "Cobalt Speech: демонстрация распознавания речи". demo-cubic.cobaltspeech.com.
дальнейшее чтение
- Пьерачини, Роберто (2012). Голос в машине. Создание компьютеров, понимающих речь. MIT Press. ISBN 978-0262016858.
- Вельфель, Матиас; Макдонаф, Джон (26 мая 2009 г.). Распознавание речи на расстоянии. Вайли. ISBN 978-0470517048.
- Карат, Клэр-Мари; Верго, Джон; Нахаму, Дэвид (2007). «Технологии разговорного интерфейса». В Sears, Эндрю; Джек, Джули А. (ред.). Справочник по взаимодействию человека и компьютера: основы, развивающиеся технологии и новые приложения (человеческий фактор и эргономика). Lawrence Erlbaum Associates Inc. ISBN 978-0-8058-5870-9.
- Коул, Рональд; Мариани, Джозеф; Uszkoreit, Hans; Вариле, Джованни Баттиста; Заенен, Энни; Замполли; Зу, Виктор, ред. (1997). Обзор современного состояния технологий человеческого языка. Кембриджские исследования в области обработки естественного языка. XII – XIII. Издательство Кембриджского университета. ISBN 978-0-521-59277-2.
- Junqua, J.-C .; Хатон, Ж.-П. (1995). Надежность автоматического распознавания речи: основы и приложения. Kluwer Academic Publishers. ISBN 978-0-7923-9646-8.
- Пирани, Джанкарло, изд. (2013). Продвинутые алгоритмы и архитектуры для понимания речи. Springer Science & Business Media. ISBN 978-3-642-84341-9.
внешняя ссылка
- Сигнер, Бит и Хост, Лоде: SpeeG2: интерфейс на основе речи и жестов для эффективного ввода текста без контроллера, In Proceedings of ICMI 2013, 15-я Международная конференция по мультимодальному взаимодействию, Сидней, Австралия, декабрь 2013 г.
- Речевые технологии в Керли