WaveNet - WaveNet

WaveNet глубокий нейронная сеть для создания необработанного звука. Он был создан исследователями лондонской фирмы по искусственному интеллекту. DeepMind. Техника, изложенная в статье от сентября 2016 г.,[1] может генерировать относительно реалистично звучащие человеческие голоса, напрямую моделируя формы волны с помощью нейронная сеть метод обучения с записями реальной речи. Как сообщается, тесты с использованием американского английского и китайского языков показали, что система превосходит лучшие существующие Google текст в речь (TTS), хотя по состоянию на 2016 год его синтез текста в речь все еще был менее убедительным, чем реальная человеческая речь.[2] Способность WaveNet генерировать необработанные формы волны означает, что она может моделировать любой звук, включая музыку.[3]

История

Генерация речи из текста становится все более распространенной задачей благодаря популярности программного обеспечения, такого как Apple Siri, Microsoft Кортана, Amazon Alexa и Google Ассистент.[4]

В большинстве таких систем используется разновидность техники, которая включает в себя сцепленные звуковые фрагменты вместе для формирования узнаваемых звуков и слов.[5] Самый распространенный из них называется конкатенативным TTS.[6] Он состоит из большой библиотеки фрагментов речи, записанных от одного говорящего, которые затем объединяются для получения законченных слов и звуков. Результат звучит неестественно, со странной каденцией и тоном.[7] Использование записанной библиотеки также затрудняет изменение или изменение голоса.[8]

Другой метод, известный как параметрическая TTS,[9] использует математические модели для воссоздания звуков, которые затем объединяются в слова и предложения. Информация, необходимая для генерации звуков, хранится в параметрах модели. Характеристики выходной речи контролируются через входы модели, в то время как речь обычно создается с помощью синтезатора голоса, известного как вокодер. Это также может привести к неестественному звучанию.

Дизайн и текущие исследования

Фон

WaveNet - это разновидность нейронная сеть с прямой связью известный как глубокий сверточная нейронная сеть (CNN). В WaveNet CNN принимает необработанный сигнал в качестве входа и синтезирует выходной сигнал по одной выборке за раз. Это делается путем отбора проб из softmax (т.е. категоричный ) распределение значения сигнала, которое закодировано с использованием μ-закон компандирование преобразование и квантованный до 256 возможных значений.[10]

Первоначальная концепция и результаты

Согласно исходной исследовательской статье DeepMind от сентября 2016 г. WaveNet: Генеративная модель для Raw Audio[11], в сеть подавались реальные формы речи на английском и мандаринском языках. По мере того, как они проходят через сеть, он изучает набор правил, описывающих, как форма звуковой волны изменяется с течением времени. Обученную сеть затем можно использовать для создания новых речевых сигналов со скоростью 16 000 выборок в секунду. Эти формы волны включают реалистичное дыхание и шлепки губами, но не соответствуют никакому языку.[12]

WaveNet может точно моделировать различные голоса, при этом акцент и тон входного сигнала коррелируют с выходным. Например, если он обучен немецкому языку, он воспроизводит немецкую речь.[13] Эта возможность также означает, что если WaveNet получает другие входы, например музыку, то ее выход будет музыкальным. Во время своего выпуска DeepMind показал, что WaveNet может генерировать волны, которые звучат как классическая музыка.[14]

Замена контента (голоса)

Согласно газете за июнь 2018 г. Распутанная последовательность Автоэнкодер[15]DeepMind успешно использовала WaveNet для «обмена контентом» также в отношении аудио и голосового контента, что в основном означает, что голос в любой данной аудиозаписи может быть заменен на любой другой ранее существовавший голос, сохраняя при этом текст и другие функции из оригинальная запись. «Мы также экспериментируем с данными аудиопоследовательности. Наше распутанное представление позволяет нам преобразовывать идентичности говорящих друг в друга, при этом обусловливая содержание речи». (стр. 5) «Для аудио это позволяет преобразовать мужской динамик в женский и наоборот. [...]. »(стр. 1) Согласно документу, двузначное минимальное количество часов (около 50 часов) уже существующих речевых записей как исходного, так и целевого голоса должно быть введено в WaveNet, чтобы программа могла изучить их индивидуальные особенности, прежде чем он сможет выполнять преобразование одного голоса в другой с удовлетворительным качеством. Авторы подчеркивают, что "[а]n преимущество модели в том, что она отделяет динамические элементы от статических. [...]. »(стр. 8), т.е. WaveNet может различать произносимый текст и режимы доставки (модуляция, скорость, высота тона, настроение и т. д.), чтобы поддерживать их во время преобразования одного голоса в другой, с одной стороны, и основные характеристики как исходного, так и целевого голосов, которые необходимо поменять местами.

Последующий документ за январь 2019 г. Обучение воспроизведению речи без учителя с использованием автоэнкодеров WaveNet[16] подробно описывает метод успешного улучшения надлежащего автоматического распознавания и различения динамических и статических функций для «обмена контентом», в частности, включая замену голосов в существующих аудиозаписях, чтобы сделать его более надежным. Еще один дополнительный документ, Пример эффективного адаптивного преобразования текста в речь[17]от сентября 2018 г. (последняя редакция - январь 2019 г.) заявляет, что DeepMind успешно сократил минимальное количество реальных записей, необходимых для сэмплирования существующего голоса через WaveNet, до «всего лишь нескольких минут аудиоданных», сохранив при этом результаты высокого качества.

Его способность клонировать голоса поднял этические опасения по поводу способности WaveNet имитировать голоса живых и мертвых людей. По данным 2016 г. BBC статья, компании, работающие над аналогичными технологиями клонирования голоса (например, Adobe Voco ) намереваются вставить водяные знаки, не слышимые людьми, для предотвращения подделок, при этом поддерживая, чтобы клонирование голоса, удовлетворяющее, например, потребности индустрии развлечений, было бы гораздо менее сложным и использовало бы другие методы, чем требуемые, чтобы обмануть методы судебно-медицинской экспертизы и электронный идентификатор устройств, так что естественные голоса и голоса, клонированные для целей индустрии развлечений, можно было легко отличить с помощью технологического анализа.[18]

Приложения

Во время своего выпуска DeepMind заявила, что WaveNet требует слишком большой вычислительной мощности для использования в реальных приложениях.[19] По состоянию на октябрь 2017 года Google объявил об улучшении производительности в 1000 раз наряду с улучшением качества передачи речи. Затем WaveNet использовался для генерации Google Ассистент голоса для английского и японского языков США на всех платформах Google.[20] В ноябре 2017 года исследователи DeepMind выпустили исследовательский документ, в котором подробно описывается предлагаемый метод «генерации высококачественных речевых образцов более чем в 20 раз быстрее, чем в реальном времени», названный «дистилляция плотности вероятности».[21] На ежегодном Конференция разработчиков ввода-вывода в мае 2018 года было объявлено, что новые голоса Google Assistant стали доступны и стали возможными благодаря WaveNet; WaveNet значительно сократил количество аудиозаписей, необходимых для создания модели голоса, путем моделирования необработанного звука образцов голосового актера.[22]

Рекомендации

  1. ^ ван ден Оорд, Аарон; Дилеман, Сандер; Дзен, Хейга; Симонян, Карен; Виньялс, Ориол; Грейвс, Алекс; Кальхбреннер, Нал; Старший, Андрей; Кавукчуоглу, Корай (12 сентября 2016 г.). «WaveNet: Генеративная модель для Raw Audio». 1609. arXiv:1609.03499. Bibcode:2016arXiv160903499V. Цитировать журнал требует | журнал = (помощь)
  2. ^ Кан, Джереми (09.09.2016). "DeepMind от Google совершает прорыв в развитии речи". Bloomberg.com. Получено 2017-07-06.
  3. ^ Мейер, Дэвид (09.09.2016). «DeepMind от Google заявляет о значительном прогрессе в области синтезированной речи». Удача. Получено 2017-07-06.
  4. ^ Кан, Джереми (09.09.2016). "DeepMind от Google совершает прорыв в развитии речи". Bloomberg.com. Получено 2017-07-06.
  5. ^ Кондлифф, Джейми (09.09.2016). «Когда этот компьютер говорит, вы действительно можете захотеть послушать». Обзор технологий MIT. Получено 2017-07-06.
  6. ^ Хант, А. Дж .; Блэк, А. В. (май 1996 г.). Выбор блока в системе конкатенативного синтеза речи с использованием большой речевой базы данных (PDF). 1996 Международная конференция IEEE по акустике, речи и обработке сигналов Труды конференции. 1. С. 373–376. CiteSeerX  10.1.1.218.1335. Дои:10.1109 / ICASSP.1996.541110. ISBN  978-0-7803-3192-1.
  7. ^ Колдеви, Девин (09.09.2016). «Google WaveNet использует нейронные сети для создания устрашающе убедительной речи и музыки». TechCrunch. Получено 2017-07-06.
  8. ^ ван ден Оорд, Аэрон; Дилеман, Сандер; Дзен, Хейга (2016-09-08). "WaveNet: Генеративная модель для Raw Audio". DeepMind. Получено 2017-07-06.
  9. ^ Дзен, Хейга; Токуда, Кейчи; Блэк, Алан В. (2009). «Статистический параметрический синтез речи». Речевое общение. 51 (11): 1039–1064. CiteSeerX  10.1.1.154.9874. Дои:10.1016 / j.specom.2009.04.004.
  10. ^ Оорд, Аарон ван ден; Дилеман, Сандер; Дзен, Хейга; Симонян, Карен; Виньялс, Ориол; Грейвс, Алекс; Кальхбреннер, Нал; Старший, Андрей; Кавукчуоглу, Корай (12 сентября 2016 г.). «WaveNet: Генеративная модель для Raw Audio». 1609. arXiv:1609.03499. Bibcode:2016arXiv160903499V. Цитировать журнал требует | журнал = (помощь)
  11. ^ Oord et al. (2016). WaveNet: Генеративная модель для Raw Audio, Корнельский университет, 19 сентября 2016 г.
  12. ^ Гершгорн, Дэйв (09.09.2016). «Вы уверены, что разговариваете с человеком? Роботы начинают звучать устрашающе реалистично». Кварцевый. Получено 2017-07-06.
  13. ^ Колдеви, Девин (09.09.2016). «Google WaveNet использует нейронные сети для создания устрашающе убедительной речи и музыки». TechCrunch. Получено 2017-07-06.
  14. ^ ван ден Оорд, Аэрон; Дилеман, Сандер; Дзен, Хейга (2016-09-08). "WaveNet: Генеративная модель для Raw Audio". DeepMind. Получено 2017-07-06.
  15. ^ Ли и Манд (2016). Распутанный последовательный автоэнкодер, 12 июня 2018 г., Корнельский университет
  16. ^ Chorowsky et al. (2019). Обучение воспроизведению речи без учителя с использованием автоэнкодеров WaveNet, 25 января 2019 г., Корнельский университет
  17. ^ Chen et al. (2018). Пример эффективного адаптивного преобразования текста в речь, 27 сентября 2018 г., Корнельский университет. Также см. Последний Редакция за январь 2019 г..
  18. ^ Adobe Voco 'Photoshop-for-voice' вызывает опасения, 7 ноября 2016, BBC
  19. ^ «Adobe Voco 'Photoshop-for-voice' вызывает беспокойство». Новости BBC. 2016-11-07. Получено 2017-07-06.
  20. ^ WaveNet запускается в Google Assistant
  21. ^ Oord et al. (2017): Parallel WaveNet: быстрый высокоточный синтез речи, Корнельский университет, 28 ноября 2017 г.
  22. ^ Мартин, Тейлор (9 мая 2018 г.). "Попробуйте совершенно новые голоса Google Ассистента прямо сейчас". CNET. Получено 10 мая, 2018.

внешняя ссылка