Голосовые вычисления - Voice computing

В Amazon Echo, пример голосового компьютера

Голосовые вычисления это дисциплина, которая разрабатывает оборудование или программное обеспечение для обработки голосового ввода.[1]

Он охватывает многие другие области, включая взаимодействие человека с компьютером, разговорные вычисления, лингвистика, обработка естественного языка, автоматическое распознавание речи, синтез речи, звуковая инженерия, цифровая обработка сигналов, облачные вычисления, наука о данных, этика, закон, и информационная безопасность.

Голосовые вычисления приобретают все большее значение в наше время, особенно с появлением умные колонки словно Amazon Echo и Google Ассистент, сдвиг в сторону бессерверные вычисления, и повышенная точность распознавание речи и текст в речь модели.

История

Голосовые вычисления имеют богатую историю.[2] Во-первых, ученым нравится Вольфганг Кемпелен начал создавать речевые машины для создания самых ранних синтетических звуков речи. Это привело к дальнейшей работе Томаса Эдисона по записи звука с диктофоны и воспроизвести в корпоративных настройках. В 1950-1960-х годах были примитивные попытки построить автоматизированные распознавание речи системы Bell Labs, IBM, и другие. Однако только в 1980-х годах Скрытые марковские модели были использованы для распознавания до 1000 слов, которые стали актуальными для систем распознавания речи.

ДатаМероприятие
1784Вольфганг фон Кемпелен создает акустико-механическую речевую машину.
1879Томас Эдисон изобретает первый диктофон.
1952Bell Labs релизы Одри, способный распознавать произносимые цифры с точностью до 90%.
1962IBM Shoebox может распознать до 16 слов.
1971Гарпия создан, который может понимать более 1000 слов.
1986IBM Tangora использует Скрытые марковские модели предсказывать фонемы в речи.
2006Национальное Агенство Безопасности начинает исследование по обнаружению горячих слов во время обычных разговоров.
2008Google запускает голосовое приложение, переносит распознавание речи на мобильные устройства.
2011яблоко выпускает Siri на iPhone
2014Amazon релизы Amazon Echo сделать голосовые вычисления актуальными для широкой публики.

Примерно в 2011 г. Siri появился на Apple iPhone как первый голосовой помощник, доступный потребителям. Это нововведение привело к резкому переходу к созданию архитектур с приоритетом голосовых вычислений. PS4 была выпущена Sony в Северной Америке в 2013 году (более 70 миллионов устройств), Amazon выпустила Amazon Echo в 2014 г. (30+ млн устройств), Microsoft выпустила Cortana (2015 г. - 400 млн пользователей Windows 10), выпустила Google Google Ассистент (2016 год - 2 миллиарда активных пользователей в месяц на телефонах Android), и яблоко вышел HomePod (2018 г. - продано 500000 устройств и 1 миллиард активных устройств с iOS / Siri). Эти сдвиги, наряду с достижениями в облачной инфраструктуре (например, Веб-сервисы Amazon ) и кодеки, укрепили сферу голосовых вычислений и сделали ее широко актуальной для широкой публики.

Аппаратное обеспечение

А голосовой компьютер собирается аппаратное и программное обеспечение для обработки голосового ввода.

Обратите внимание, что голосовым компьютерам не обязательно нужен экран, как в традиционных Amazon Echo. В других вариантах традиционный портативные компьютеры или же мобильные телефоны могут использоваться как голосовые компьютеры. Более того, интерфейсов для голосовых компьютеров становится все больше с появлением Интернет вещей -включенные устройства, например, в автомобилях или телевизорах.

По состоянию на сентябрь 2018 года в настоящее время существует более 20000 типов устройств, совместимых с Amazon Alexa.[3]

Программного обеспечения

Программное обеспечение для голосовых вычислений может читать / писать, записывать, очищать, шифровать / дешифровать, воспроизводить, транскодировать, расшифровывать, сжимать, публиковать, изменять характеристики, моделировать и визуализировать голосовые файлы.

Вот несколько популярных программных пакетов, связанных с голосовыми вычислениями:

Имя пакетаОписание
FFmpegза перекодирование аудиофайлы из одного формата в другой (например, .WAV -> .MP3).[4]
Мужестводля записи и фильтрации звука.[5]
SoXдля работы с аудиофайлами и удаления шума окружающей среды.[6]
Инструментарий естественного языкадля добавления в стенограммы таких вещей, как части речи.[7]
LibROSAдля визуализации спектрограмм аудиофайлов и определения характеристик аудиофайлов.[8]
OpenSMILEдля добавления в аудиофайлы таких вещей, как мелкочастотные коэффициенты кепстра.[9]
КМУ Сфинксдля преобразования речевых файлов в текст.[10]
Pyttsx3для воспроизведения аудиофайлов (преобразование текста в речь).[11]
Пикриптодомдля шифрования и дешифрования аудиофайлов.[12]

Приложения

Приложения для голосовых вычислений охватывают многие отрасли, включая голосовых помощников, здравоохранение, электронную коммерцию, финансы, цепочки поставок, сельское хозяйство, преобразование текста в речь, безопасность, маркетинг, поддержку клиентов, набор персонала, облачные вычисления, микрофоны, динамики и подкастинг. Прогнозируется, что к 2025 году голосовые технологии будут расти в среднем на 19-25%, что сделает их привлекательной отраслью как для стартапов, так и для инвесторов.[13]

Пример использованияПример продукта или стартапа
Голосовые помощникиКортана,[14] Amazon Alexa,[15] Siri,[16] Google Ассистент,[17] Apple HomePod,[18] Джаспер,[19] и Нала.[20], Алекса Голосовая служба[21]
ЗдравоохранениеКардиокуб,[22] Тоновая доска,[23] Суки,[24] Praktice.ai,[25] Корти,[26] и слог.[27]
электронная коммерцияЦеребель,[28] Войзис,[29] Миндори,[30] Твиггл,[31] и Addstructure.[32]
ФинансыКасисто,[33] Персонетика,[34] Voxo,[35] и активный интеллект.[36]
Цепочка поставок и ПроизводствоАвгюри,[37] Кекстиль,[38] 3DSignals,[39] Voxware,[40] и Отосенс.[41]
сельское хозяйствоАгвойс.[42]
Текст в речьLyrebyrd [43] и VocalID.[44]
БезопасностьБезопасность Pindrop [45] и Aimbrain.[46]
МаркетингКонвирза,[47] Диалогтех,[48] Invoca,[49] и Veritonic.[50]
Служба поддержкиCogito.,[51] Афинити,[52] Aaron.ai,[53] Blueworx,[54] Servo.ai,[55] SmartAction, и Chatdesk.[56]
РекрутингSurveyLex [57] и голосовой взгляд.[58]
Речь в текстГолосовая база,[59] Speechmatics,[60] Капио,[61] Нюанс, и Spitch.[62], AWS Расшифровывать
Облачные вычисленияAWS,[63] GCP,[64] IBM Watson,[65] и Microsoft Azure.[66]
Микрофон /оратор дизайнBose [67] и Audio Technica.[68]
ПодкастингЯкорь [69] и iTunes.[70]

Юридические соображения

В Соединенных Штатах в штатах различаются законы записи телефонных разговоров. В некоторых штатах законно записывать разговор с согласия только одной стороны, в других требуется согласие всех сторон.

Более того, COPPA является важным законом для защиты несовершеннолетних, пользующихся Интернетом. В связи с ростом числа несовершеннолетних, взаимодействующих с устройствами для голосовых вычислений (например, Amazon Alexa), 23 октября 2017 г. Федеральная торговая комиссия смягчили правило COPAA, чтобы дети могли выполнять голосовой поиск и команды.[71][72]

Наконец, GDPR новый европейский закон, регулирующий право быть забытым и многие другие пункты для граждан ЕС. GDPR также четко указывает на то, что компаниям необходимо изложить четкие меры для получения согласия в случае записи аудиозаписей и определить цель и объем того, как эти записи будут использоваться, например, в целях обучения. В соответствии с GDPR была повышена планка действительного согласия. Согласие должно быть добровольным, конкретным, информированным и недвусмысленным; молчаливого согласия уже недостаточно.[73]

Научные конференции

Есть много исследовательских конференций, которые касаются голосовых вычислений. Некоторые из них включают:

Сообщество разработчиков

По состоянию на январь 2018 года у Google Assistant было около 2000 действий.[78]

По состоянию на сентябрь 2018 года во всем мире насчитывается более 50000 навыков Alexa.[79]

В июне 2017 г. Google выпустила AudioSet,[80] масштабная коллекция 10-секундных аудиоклипов, помеченных людьми, взятых из видеороликов YouTube. Он содержит 1 010 480 видео файлов человеческой речи, или 2 793,5 часа в целом.[81] Он был выпущен в рамках конференции IEEE ICASSP 2017.[82]

В ноябре 2017 г. Фонд Mozilla выпустила Common Voice Project - коллекцию речевых файлов, призванную помочь большему сообществу машинного обучения с открытым исходным кодом.[83][84] Голосовой банк в настоящее время имеет размер 12 ГБ и содержит более 500 часов голосовых данных на английском языке, которые были собраны из 112 стран с момента создания проекта в июне 2017 года.[85] Этот набор данных уже стал результатом творческих проектов, таких как модель DeepSpeech, модель транскрипции с открытым исходным кодом.[86]

Смотрите также

Рекомендации

  1. ^ Швёбель, Дж. (2018). Введение в голосовые вычисления в Python. Бостон; Сиэтл, Атланта: лаборатории NeuroLex. https://neurolex.ai/voicebook
  2. ^ График распознавания речи. https://medium.com/swlh/the-past-present-and-future-of-speech-recognition-technology-cf13c179aaf
  3. ^ Voicebot.AI. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/
  4. ^ FFmpeg. https://www.ffmpeg.org/
  5. ^ Мужество. https://www.audacityteam.org/
  6. ^ SoX. http://sox.sourceforge.net/
  7. ^ НЛТК. https://www.nltk.org/
  8. ^ LibROSA. https://librosa.github.io/librosa/
  9. ^ OpenSMILE. https://www.audeering.com/technology/opensmile/
  10. ^ «PocketSphinx - это легкий механизм распознавания речи, специально настроенный для карманных и мобильных устройств, хотя он одинаково хорошо работает на настольных компьютерах: Cmusphinx / Pocketsphinx». 29 марта 2020.
  11. ^ Pyttsx3. https://github.com/nateshmbhat/pyttsx3
  12. ^ Пикриптодом. https://pycryptodome.readthedocs.io/en/latest/
  13. ^ Businesswire. https://www.businesswire.com/news/home/20180417006122/en/Global-Speech-Voice-Recognition-Market-2018-Forecast
  14. ^ Кортана. https://www.microsoft.com/en-us/cortana
  15. ^ Amazon Alexa. https://developer.amazon.com/alexa
  16. ^ Siri. https://www.apple.com/siri/
  17. ^ Google Ассистент. https://assistant.google.com/#?modal_active=none
  18. ^ HomePod. https://www.apple.com/homepod/
  19. ^ Джаспер https://jasperproject.github.io/
  20. ^ Нала. https://github.com/jim-schwoebel/nala
  21. ^ Голосовая служба Alexa. https://developer.amazon.com/alexa-voice-service
  22. ^ Кардиокуб. https://www.cardiocube.com/
  23. ^ Тоновая доска. https://toneboard.com/
  24. ^ Суки. https://www.suki.ai/
  25. ^ Praktice.ai. https://praktice.ai/
  26. ^ Corti. https://corti.ai/
  27. ^ Слог. https://www.syllable.ai/
  28. ^ Церебель. https://map.startuplithuania.lt/companies/cerebel
  29. ^ Войзис. https://voysis.com/
  30. ^ Миндори. http://mindori.com/
  31. ^ Twiggle. https://www.twiggle.com/
  32. ^ AddStructure. https://www.crunchbase.com/organization/addstructure
  33. ^ Kasisto. https://kasisto.com/
  34. ^ Персонетика. https://personetics.com/
  35. ^ Voxo. https://www.voxo.ai/
  36. ^ Активный интеллект. https://active.ai/
  37. ^ Augury. https://www.augury.com/
  38. ^ Kextil. http://www.kextil.com/
  39. ^ 3DSignals. https://www.3dsig.com/
  40. ^ Voxware. https://www.voxware.com/
  41. ^ Отосенс. https://www.otosense.com/
  42. ^ Агвойс. https://agvoiceglobal.com/
  43. ^ Лирохвост. https://lyrebird.ai/
  44. ^ VocalD. https://vocalid.ai/
  45. ^ Пиндроп. https://www.pindrop.com/
  46. ^ Aimbrain. https://aimbrain.com/
  47. ^ Convirza. https://www.convirza.com/
  48. ^ Dialogtech. https://www.dialogtech.com/
  49. ^ Invoca. https://www.invoca.com/
  50. ^ Veritonic. https://veritonic.com/
  51. ^ Cogito. https://www.cogitocorp.com/
  52. ^ Афинити. https://www.afiniti.com/
  53. ^ Aaron.ai. https://aaron.ai/
  54. ^ Blueworx. https://www.blueworx.com/
  55. ^ Servo.ai. https://www.servo.ai/
  56. ^ Chatdesk. https://chatdesk.com/
  57. ^ SurveyLex. https://www.surveylex.com/
  58. ^ Голосовой взгляд. https://voiceglance.com/
  59. ^ Голосовая база. https://www.voicebase.com/
  60. ^ Speechmatics. https://www.speechmatics.com/
  61. ^ Capio. https://www.capio.ai/
  62. ^ Слюна. https://www.spitch.ch/
  63. ^ AWS. https://aws.amazon.com/
  64. ^ GCP. https://cloud.google.com/
  65. ^ IBM Watson. https://www.ibm.com/watson/
  66. ^ Microsoft Azure. https://azure.microsoft.com/en-us/
  67. ^ Колонки Bose. https://www.bose.com/en_us/shop_all/speakers/speakers.html
  68. ^ Audio Technica. https://www.audio-technica.com/cms/site/c35da94027e94819/index.html
  69. ^ Якорь. https://anchor.fm/
  70. ^ iTunes. https://www.apple.com/itunes/
  71. ^ Techcrunch. https://techcrunch.com/2017/10/24/ftc-relaxes-coppa-rule-so-kids-can-issue-voice-searches-and-commands/
  72. ^ https://www.federalregister.gov/documents/2017/12/08/2017-26509/enforcement-policy-statement-regarding-the-applicability-of-the-coppa-rule-to-the-collection-and- использовать
  73. ^ IAPP. https://iapp.org/news/a/how-do-the-rules-on-audio-recording-change-under-the-gdpr/
  74. ^ Интерспич 2018. http://interspeech2018.org/
  75. ^ АВЭК 2018. http://avec2018.org/
  76. ^ 2018 ФГ. https://fg2018.cse.sc.edu/
  77. ^ ASCII 2019. http://acii-conf.org/2019/
  78. ^ Voicebot.ai. https://voicebot.ai/2018/01/24/google-assistant-app-total-reaches-nearly-2400-thats-not-real-number-really-1719/
  79. ^ Voicebot.ai. https://voicebot.ai/2018/09/02/amazon-alexa-now-has-50000-skills-worldwide-is-on-20000-devices-used-by-3500-brands/.
  80. ^ Google AudioSet. https://research.google.com/audioset/
  81. ^ Данные аудиосистемы. https://research.google.com/audioset/dataset/speech.html
  82. ^ Геммеке, Дж. Ф., Эллис, Д. П., Фридман, Д., Янсен, А., Лоуренс, В., Мур, и Риттер, М. (2017, март). Аудиосистема: онтология и маркированный человеком набор данных для аудиособытий. В области акустики, речи и обработки сигналов (ICASSP), Международная конференция IEEE 2017 г. (стр. 776-780). IEEE.
  83. ^ Общий голосовой проект. https://voice.mozilla.org/
  84. ^ Общий голосовой проект. https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/
  85. ^ Большой репозиторий голосовых данных Mozilla определит будущее машинного обучения. https://opensource.com/article/18/4/common-voice
  86. ^ DeepSpeech. https://github.com/mozilla/DeepSpeech