Голосовые вычисления - Voice computing

В Amazon Echo, пример голосового компьютера

Голосовые вычисления это дисциплина, которая разрабатывает оборудование или программное обеспечение для обработки голосового ввода.^[1]

Он охватывает многие другие области, включая взаимодействие человека с компьютером, разговорные вычисления, лингвистика, обработка естественного языка, автоматическое распознавание речи, синтез речи, звуковая инженерия, цифровая обработка сигналов, облачные вычисления, наука о данных, этика, закон, и информационная безопасность.

Голосовые вычисления приобретают все большее значение в наше время, особенно с появлением умные колонки словно Amazon Echo и Google Ассистент, сдвиг в сторону бессерверные вычисления, и повышенная точность распознавание речи и текст в речь модели.

История

Голосовые вычисления имеют богатую историю.^[2] Во-первых, ученым нравится Вольфганг Кемпелен начал создавать речевые машины для создания самых ранних синтетических звуков речи. Это привело к дальнейшей работе Томаса Эдисона по записи звука с диктофоны и воспроизвести в корпоративных настройках. В 1950-1960-х годах были примитивные попытки построить автоматизированные распознавание речи системы Bell Labs, IBM, и другие. Однако только в 1980-х годах Скрытые марковские модели были использованы для распознавания до 1000 слов, которые стали актуальными для систем распознавания речи.

Дата	Мероприятие
1784	Вольфганг фон Кемпелен создает акустико-механическую речевую машину.
1879	Томас Эдисон изобретает первый диктофон.
1952	Bell Labs релизы Одри, способный распознавать произносимые цифры с точностью до 90%.
1962	IBM Shoebox может распознать до 16 слов.
1971	Гарпия создан, который может понимать более 1000 слов.
1986	IBM Tangora использует Скрытые марковские модели предсказывать фонемы в речи.
2006	Национальное Агенство Безопасности начинает исследование по обнаружению горячих слов во время обычных разговоров.
2008	Google запускает голосовое приложение, переносит распознавание речи на мобильные устройства.
2011	яблоко выпускает Siri на iPhone
2014	Amazon релизы Amazon Echo сделать голосовые вычисления актуальными для широкой публики.

Примерно в 2011 г. Siri появился на Apple iPhone как первый голосовой помощник, доступный потребителям. Это нововведение привело к резкому переходу к созданию архитектур с приоритетом голосовых вычислений. PS4 была выпущена Sony в Северной Америке в 2013 году (более 70 миллионов устройств), Amazon выпустила Amazon Echo в 2014 г. (30+ млн устройств), Microsoft выпустила Cortana (2015 г. - 400 млн пользователей Windows 10), выпустила Google Google Ассистент (2016 год - 2 миллиарда активных пользователей в месяц на телефонах Android), и яблоко вышел HomePod (2018 г. - продано 500000 устройств и 1 миллиард активных устройств с iOS / Siri). Эти сдвиги, наряду с достижениями в облачной инфраструктуре (например, Веб-сервисы Amazon ) и кодеки, укрепили сферу голосовых вычислений и сделали ее широко актуальной для широкой публики.

Аппаратное обеспечение

А голосовой компьютер собирается аппаратное и программное обеспечение для обработки голосового ввода.

Обратите внимание, что голосовым компьютерам не обязательно нужен экран, как в традиционных Amazon Echo. В других вариантах традиционный портативные компьютеры или же мобильные телефоны могут использоваться как голосовые компьютеры. Более того, интерфейсов для голосовых компьютеров становится все больше с появлением Интернет вещей -включенные устройства, например, в автомобилях или телевизорах.

По состоянию на сентябрь 2018 года в настоящее время существует более 20000 типов устройств, совместимых с Amazon Alexa.^[3]

Программного обеспечения

Программное обеспечение для голосовых вычислений может читать / писать, записывать, очищать, шифровать / дешифровать, воспроизводить, транскодировать, расшифровывать, сжимать, публиковать, изменять характеристики, моделировать и визуализировать голосовые файлы.

Вот несколько популярных программных пакетов, связанных с голосовыми вычислениями:

Имя пакета	Описание
FFmpeg	за перекодирование аудиофайлы из одного формата в другой (например, .WAV -> .MP3).^[4]
Мужество	для записи и фильтрации звука.^[5]
SoX	для работы с аудиофайлами и удаления шума окружающей среды.^[6]
Инструментарий естественного языка	для добавления в стенограммы таких вещей, как части речи.^[7]
LibROSA	для визуализации спектрограмм аудиофайлов и определения характеристик аудиофайлов.^[8]
OpenSMILE	для добавления в аудиофайлы таких вещей, как мелкочастотные коэффициенты кепстра.^[9]
КМУ Сфинкс	для преобразования речевых файлов в текст.^[10]
Pyttsx3	для воспроизведения аудиофайлов (преобразование текста в речь).^[11]
Пикриптодом	для шифрования и дешифрования аудиофайлов.^[12]

Приложения

Приложения для голосовых вычислений охватывают многие отрасли, включая голосовых помощников, здравоохранение, электронную коммерцию, финансы, цепочки поставок, сельское хозяйство, преобразование текста в речь, безопасность, маркетинг, поддержку клиентов, набор персонала, облачные вычисления, микрофоны, динамики и подкастинг. Прогнозируется, что к 2025 году голосовые технологии будут расти в среднем на 19-25%, что сделает их привлекательной отраслью как для стартапов, так и для инвесторов.^[13]

Пример использования	Пример продукта или стартапа
Голосовые помощники	Кортана,^[14] Amazon Alexa,^[15] Siri,^[16] Google Ассистент,^[17] Apple HomePod,^[18] Джаспер,^[19] и Нала.^[20], Алекса Голосовая служба^[21]
Здравоохранение	Кардиокуб,^[22] Тоновая доска,^[23] Суки,^[24] Praktice.ai,^[25] Корти,^[26] и слог.^[27]
электронная коммерция	Церебель,^[28] Войзис,^[29] Миндори,^[30] Твиггл,^[31] и Addstructure.^[32]
Финансы	Касисто,^[33] Персонетика,^[34] Voxo,^[35] и активный интеллект.^[36]
Цепочка поставок и Производство	Авгюри,^[37] Кекстиль,^[38] 3DSignals,^[39] Voxware,^[40] и Отосенс.^[41]
сельское хозяйство	Агвойс.^[42]
Текст в речь	Lyrebyrd ^[43] и VocalID.^[44]
Безопасность	Безопасность Pindrop ^[45] и Aimbrain.^[46]
Маркетинг	Конвирза,^[47] Диалогтех,^[48] Invoca,^[49] и Veritonic.^[50]
Служба поддержки	Cogito.,^[51] Афинити,^[52] Aaron.ai,^[53] Blueworx,^[54] Servo.ai,^[55] SmartAction, и Chatdesk.^[56]
Рекрутинг	SurveyLex ^[57] и голосовой взгляд.^[58]
Речь в текст	Голосовая база,^[59] Speechmatics,^[60] Капио,^[61] Нюанс, и Spitch.^[62], AWS Расшифровывать
Облачные вычисления	AWS,^[63] GCP,^[64] IBM Watson,^[65] и Microsoft Azure.^[66]
Микрофон /оратор дизайн	Bose ^[67] и Audio Technica.^[68]
Подкастинг	Якорь ^[69] и iTunes.^[70]

Юридические соображения

В Соединенных Штатах в штатах различаются законы записи телефонных разговоров. В некоторых штатах законно записывать разговор с согласия только одной стороны, в других требуется согласие всех сторон.

Более того, COPPA является важным законом для защиты несовершеннолетних, пользующихся Интернетом. В связи с ростом числа несовершеннолетних, взаимодействующих с устройствами для голосовых вычислений (например, Amazon Alexa), 23 октября 2017 г. Федеральная торговая комиссия смягчили правило COPAA, чтобы дети могли выполнять голосовой поиск и команды.^[71]^[72]

Наконец, GDPR новый европейский закон, регулирующий право быть забытым и многие другие пункты для граждан ЕС. GDPR также четко указывает на то, что компаниям необходимо изложить четкие меры для получения согласия в случае записи аудиозаписей и определить цель и объем того, как эти записи будут использоваться, например, в целях обучения. В соответствии с GDPR была повышена планка действительного согласия. Согласие должно быть добровольным, конкретным, информированным и недвусмысленным; молчаливого согласия уже недостаточно.^[73]

Научные конференции

Есть много исследовательских конференций, которые касаются голосовых вычислений. Некоторые из них включают:

Международная конференция по акустике, речи и обработке сигналов
Межречевой ^[74]
АВЭК ^[75]
IEEE Int'l Conf. об автоматическом распознавании лиц и жестов ^[76]
ACII2019 8-я Международная конференция. об эффективных вычислениях и интеллектуальном взаимодействии ^[77]

Сообщество разработчиков

По состоянию на январь 2018 года у Google Assistant было около 2000 действий.^[78]

По состоянию на сентябрь 2018 года во всем мире насчитывается более 50000 навыков Alexa.^[79]

В июне 2017 г. Google выпустила AudioSet,^[80] масштабная коллекция 10-секундных аудиоклипов, помеченных людьми, взятых из видеороликов YouTube. Он содержит 1 010 480 видео файлов человеческой речи, или 2 793,5 часа в целом.^[81] Он был выпущен в рамках конференции IEEE ICASSP 2017.^[82]

В ноябре 2017 г. Фонд Mozilla выпустила Common Voice Project - коллекцию речевых файлов, призванную помочь большему сообществу машинного обучения с открытым исходным кодом.^[83]^[84] Голосовой банк в настоящее время имеет размер 12 ГБ и содержит более 500 часов голосовых данных на английском языке, которые были собраны из 112 стран с момента создания проекта в июне 2017 года.^[85] Этот набор данных уже стал результатом творческих проектов, таких как модель DeepSpeech, модель транскрипции с открытым исходным кодом.^[86]

Смотрите также

Рекомендации

^ Швёбель, Дж. (2018). Введение в голосовые вычисления в Python. Бостон; Сиэтл, Атланта: лаборатории NeuroLex. https://neurolex.ai/voicebook
^ График распознавания речи. https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf
^ Voicebot.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/
^ FFmpeg. https://www.ffmpeg.org/
^ Мужество. https://www.audacityteam.org/
^ SoX. http://sox.sourceforge.net/
^ НЛТК. https://www.nltk.org/
^ LibROSA. https://librosa.github.io/librosa/
^ OpenSMILE. https://www.audeering.com/technology/opensmile/
^ «PocketSphinx - это легкий механизм распознавания речи, специально настроенный для карманных и мобильных устройств, хотя он одинаково хорошо работает на настольных компьютерах: Cmusphinx / Pocketsphinx». 29 марта 2020.
^ Pyttsx3. https://github.com/nateshmbhat/pyttsx3
^ Пикриптодом. https://pycryptodome.readthedocs.io/en/latest/
^ Businesswire. https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast
^ Кортана. https://www.microsoft.com/en-us/cortana
^ Amazon Alexa. https://developer.amazon.com/alexa
^ Siri. https://www.apple.com/siri/
^ Google Ассистент. https://assistant.google.com/#?modal_active=none
^ HomePod. https://www.apple.com/homepod/
^ Джаспер https://jasperproject.github.io/
^ Нала. https://github.com/jim-schwoebel/nala
^ Голосовая служба Alexa. https://developer.amazon.com/alexa-voice-service
^ Кардиокуб. https://www.cardiocube.com/
^ Тоновая доска. https://toneboard.com/
^ Суки. https://www.suki.ai/
^ Praktice.ai. https://praktice.ai/
^ Corti. https://corti.ai/
^ Слог. https://www.syllable.ai/
^ Церебель. https://map.startuplithuania.lt/companies/cerebel
^ Войзис. https://voysis.com/
^ Миндори. http://mindori.com/
^ Twiggle. https://www.twiggle.com/
^ AddStructure. https://www.crunchbase.com/organization/addstructure
^ Kasisto. https://kasisto.com/
^ Персонетика. https://personetics.com/
^ Voxo. https://www.voxo.ai/
^ Активный интеллект. https://active.ai/
^ Augury. https://www.augury.com/
^ Kextil. http://www.kextil.com/
^ 3DSignals. https://www.3dsig.com/
^ Voxware. https://www.voxware.com/
^ Отосенс. https://www.otosense.com/
^ Агвойс. https://agvoiceglobal.com/
^ Лирохвост. https://lyrebird.ai/
^ VocalD. https://vocalid.ai/
^ Пиндроп. https://www.pindrop.com/
^ Aimbrain. https://aimbrain.com/
^ Convirza. https://www.convirza.com/
^ Dialogtech. https://www.dialogtech.com/
^ Invoca. https://www.invoca.com/
^ Veritonic. https://veritonic.com/
^ Cogito. https://www.cogitocorp.com/
^ Афинити. https://www.afiniti.com/
^ Aaron.ai. https://aaron.ai/
^ Blueworx. https://www.blueworx.com/
^ Servo.ai. https://www.servo.ai/
^ Chatdesk. https://chatdesk.com/
^ SurveyLex. https://www.surveylex.com/
^ Голосовой взгляд. https://voiceglance.com/
^ Голосовая база. https://www.voicebase.com/
^ Speechmatics. https://www.speechmatics.com/
^ Capio. https://www.capio.ai/
^ Слюна. https://www.spitch.ch/
^ AWS. https://aws.amazon.com/
^ GCP. https://cloud.google.com/
^ IBM Watson. https://www.ibm.com/watson/
^ Microsoft Azure. https://azure.microsoft.com/en-us/
^ Колонки Bose. https://www.bose.com/en_us/shop_all/speakers/speakers.html
^ Audio Technica. https://www.audio-technica.com/cms/site/c35da94027e94819/index.html
^ Якорь. https://anchor.fm/
^ iTunes. https://www.apple.com/itunes/
^ Techcrunch. https://techcrunch.com/2017/10/24/ftc-relaxes-coppa-rule-so-kids-can-issue-voice-searches-and-commands/
^ https://www.federalregister.gov/documents/2017/12/08/2017-26509/enforcement-policy-statement-regarding-the-applicability-of-the-coppa-rule-to-the-collection-and- использовать
^ IAPP. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/
^ Интерспич 2018. http://interspeech2018.org/
^ АВЭК 2018. http://avec2018.org/
^ 2018 ФГ. https://fg2018.cse.sc.edu/
^ ASCII 2019. http://acii-conf.org/2019/
^ Voicebot.ai. https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/
^ Voicebot.ai. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/.
^ Google AudioSet. https://research.google.com/audioset/
^ Данные аудиосистемы. https://research.google.com/audioset/dataset/speech.html
^ Геммеке, Дж. Ф., Эллис, Д. П., Фридман, Д., Янсен, А., Лоуренс, В., Мур, и Риттер, М. (2017, март). Аудиосистема: онтология и маркированный человеком набор данных для аудиособытий. В области акустики, речи и обработки сигналов (ICASSP), Международная конференция IEEE 2017 г. (стр. 776-780). IEEE.
^ Общий голосовой проект. https://voice.mozilla.org/
^ Общий голосовой проект. https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/
^ Большой репозиторий голосовых данных Mozilla определит будущее машинного обучения. https://opensource.com/article/18/4/common-voice
^ DeepSpeech. https://github.com/mozilla/DeepSpeech

[1] Швёбель, Дж. (2018). Введение в голосовые вычисления в Python. Бостон; Сиэтл, Атланта: лаборатории NeuroLex. https://neurolex.ai/voicebook

[2] График распознавания речи. https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf

[3] Voicebot.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/

[4] FFmpeg. https://www.ffmpeg.org/

[5] Мужество. https://www.audacityteam.org/

[6] SoX. http://sox.sourceforge.net/

[7] НЛТК. https://www.nltk.org/

[8] LibROSA. https://librosa.github.io/librosa/

[9] OpenSMILE. https://www.audeering.com/technology/opensmile/

[10] «PocketSphinx - это легкий механизм распознавания речи, специально настроенный для карманных и мобильных устройств, хотя он одинаково хорошо работает на настольных компьютерах: Cmusphinx / Pocketsphinx». 29 марта 2020.

[11] Pyttsx3. https://github.com/nateshmbhat/pyttsx3

[12] Пикриптодом. https://pycryptodome.readthedocs.io/en/latest/

[13] Businesswire. https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast

[14] Кортана. https://www.microsoft.com/en-us/cortana

[15] Amazon Alexa. https://developer.amazon.com/alexa

[16] Siri. https://www.apple.com/siri/

[17] Google Ассистент. https://assistant.google.com/#?modal_active=none

[18] HomePod. https://www.apple.com/homepod/

[19] Джаспер https://jasperproject.github.io/

[20] Нала. https://github.com/jim-schwoebel/nala

[21] Голосовая служба Alexa. https://developer.amazon.com/alexa-voice-service

[22] Кардиокуб. https://www.cardiocube.com/

[23] Тоновая доска. https://toneboard.com/

[24] Суки. https://www.suki.ai/

[25] Praktice.ai. https://praktice.ai/

[26] Corti. https://corti.ai/

[27] Слог. https://www.syllable.ai/

[28] Церебель. https://map.startuplithuania.lt/companies/cerebel

[29] Войзис. https://voysis.com/

[30] Миндори. http://mindori.com/

[31] Twiggle. https://www.twiggle.com/

[32] AddStructure. https://www.crunchbase.com/organization/addstructure

[33] Kasisto. https://kasisto.com/

[34] Персонетика. https://personetics.com/

[35] Voxo. https://www.voxo.ai/

[36] Активный интеллект. https://active.ai/

[37] Augury. https://www.augury.com/

[38] Kextil. http://www.kextil.com/

[39] 3DSignals. https://www.3dsig.com/

[40] Voxware. https://www.voxware.com/

[41] Отосенс. https://www.otosense.com/

[42] Агвойс. https://agvoiceglobal.com/

[43] Лирохвост. https://lyrebird.ai/

[44] VocalD. https://vocalid.ai/

[45] Пиндроп. https://www.pindrop.com/

[46] Aimbrain. https://aimbrain.com/

[47] Convirza. https://www.convirza.com/

[48] Dialogtech. https://www.dialogtech.com/

[49] Invoca. https://www.invoca.com/

[50] Veritonic. https://veritonic.com/

[51] Cogito. https://www.cogitocorp.com/

[52] Афинити. https://www.afiniti.com/

[53] Aaron.ai. https://aaron.ai/

[54] Blueworx. https://www.blueworx.com/

[55] Servo.ai. https://www.servo.ai/

[56] Chatdesk. https://chatdesk.com/

[57] SurveyLex. https://www.surveylex.com/

[58] Голосовой взгляд. https://voiceglance.com/

[59] Голосовая база. https://www.voicebase.com/

[60] Speechmatics. https://www.speechmatics.com/

[61] Capio. https://www.capio.ai/

[62] Слюна. https://www.spitch.ch/

[63] AWS. https://aws.amazon.com/

[64] GCP. https://cloud.google.com/

[65] IBM Watson. https://www.ibm.com/watson/

[66] Microsoft Azure. https://azure.microsoft.com/en-us/

[67] Колонки Bose. https://www.bose.com/en_us/shop_all/speakers/speakers.html

[68] Audio Technica. https://www.audio-technica.com/cms/site/c35da94027e94819/index.html

[69] Якорь. https://anchor.fm/

[70] Tunes. https://www.apple.com/itunes/

[71] Techcrunch. https://techcrunch.com/2017/10/24/ftc-relaxes-coppa-rule-so-kids-can-issue-voice-searches-and-commands/

[72] ttps://www.federalregister.gov/documents/2017/12/08/2017-26509/enforcement-policy-statement-regarding-the-applicability-of-the-coppa-rule-to-the-collection-and- использовать

[73] IAPP. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/

[74] Интерспич 2018. http://interspeech2018.org/

[75] АВЭК 2018. http://avec2018.org/

[76] 2018 ФГ. https://fg2018.cse.sc.edu/

[77] ASCII 2019. http://acii-conf.org/2019/

[78] Voicebot.ai. https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/

[79] Voicebot.ai. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/.

[80] Google AudioSet. https://research.google.com/audioset/

[81] Данные аудиосистемы. https://research.google.com/audioset/dataset/speech.html

[82] Геммеке, Дж. Ф., Эллис, Д. П., Фридман, Д., Янсен, А., Лоуренс, В., Мур, и Риттер, М. (2017, март). Аудиосистема: онтология и маркированный человеком набор данных для аудиособытий. В области акустики, речи и обработки сигналов (ICASSP), Международная конференция IEEE 2017 г. (стр. 776-780). IEEE.

[83] Общий голосовой проект. https://voice.mozilla.org/

[84] Общий голосовой проект. https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/

[85] Большой репозиторий голосовых данных Mozilla определит будущее машинного обучения. https://opensource.com/article/18/4/common-voice

[86] DeepSpeech. https://github.com/mozilla/DeepSpeech

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]