Синтез речи - Speech synthesis

Синтез речи это искусственное производство человека речь. Компьютерная система, используемая для этой цели, называется речевой компьютер или синтезатор речи, и может быть реализована в программного обеспечения или оборудование продукты. А текст в речь (TTS) система переводит текст на обычном языке в речь; другие системы отображают символические лингвистические представления любить фонетические транскрипции в речь.[1]

Синтезированная речь может быть создана путем объединения частей записанной речи, которые хранятся в база данных. Системы различаются размером хранимых речевых единиц; система, которая хранит телефоны или дифоны обеспечивает самый большой выходной диапазон, но может быть недостаточно четким. Для определенных областей использования хранение целых слов или предложений обеспечивает высококачественный вывод. В качестве альтернативы синтезатор может включать в себя модель голосовой тракт и другие характеристики человеческого голоса для создания полностью «синтетического» речевого вывода.[2]

О качестве синтезатора речи судят по его сходству с человеческим голосом и по его способности четко понимать. Понятная программа преобразования текста в речь позволяет людям с нарушение зрения или нарушения чтения слушать написанные слова на домашнем компьютере. Многие компьютерные операционные системы включают синтезаторы речи с начала 1990-х годов.

Обзор типичной системы TTS

Система преобразования текста в речь (или «двигатель») состоит из двух частей:[3] а внешний интерфейс и бэкэнд. Передняя часть имеет две основные задачи. Во-первых, он преобразует необработанный текст, содержащий символы, такие как числа и сокращения, в эквивалент написанных слов. Этот процесс часто называют нормализация текста, предварительная обработка, или токенизация. Затем интерфейсная часть назначает фонетические транскрипции к каждому слову, и разделяет и отмечает текст на просодические единицы, любить фразы, статьи, и фразы. Процесс присвоения слов фонетической транскрипции называется преобразование текста в фонему или графема -то-фонема конверсия. Фонетическая транскрипция и просодическая информация вместе составляют символическое лингвистическое представление, которое выводится во внешнем интерфейсе. Серверная часть - часто называемая синтезатор- затем преобразует символическое языковое представление в звук. В некоторых системах эта часть включает вычисление целевая просодия (контур высоты тона, длительности фонем),[4] который затем накладывается на выходную речь.

История

Задолго до изобретения электронный обработка сигнала, некоторые люди пытались построить машины, имитирующие человеческую речь. Некоторые ранние легенды о существовании "Медные головы "вовлеченный Папа Сильвестр II (ум. 1003 г.), Альбертус Магнус (1198–1280), и Роджер Бэкон (1214–1294).

В 1779 г. Немецкий -Датский ученый Кристиан Готтлиб Кратценштейн занял первое место в конкурсе, объявленном российским Императорская Академия наук и искусств для моделей, которые он построил из человека голосовой тракт что могло произвести пять длинных гласная буква звуки (в Международный фонетический алфавит обозначение: [аː], [eː], [я], [oː] и [uː]).[5] Затем последовали мехи -рабочий "акустико-механический речевой аппарат "из Вольфганг фон Кемпелен из Pressburg, Венгрия, описанный в статье 1791 года.[6] Эта машина добавила модели языка и губ, что позволило ей производить согласные буквы а также гласные. В 1837 г. Чарльз Уитстон произвел «говорящую машину» по проекту фон Кемпелена, а в 1846 году Йозеф Фабер выставил «Euphonia В 1923 году Пэджет воскресил дизайн Уитстона.[7]

В 1930-е гг. Bell Labs разработал вокодер, который автоматически анализировал речь на ее основные тона и резонансы. Из его работы над вокодером, Гомер Дадли разработал синтезатор голоса с клавишным управлением, названный Водер (Voice Demonstrator), которую он выставлял на 1939 Нью-Йоркская всемирная выставка.

Доктор Франклин С. Купер и его коллеги в Лаборатории Хаскинса построил Воспроизведение паттернов в конце 1940-х и завершил его в 1950 году. Было несколько разных версий этого аппаратного устройства; в настоящее время выживает только один. Машина преобразует изображения акустических моделей речи в виде спектрограммы обратно в звук. Используя это устройство, Элвин Либерман и его коллеги обнаружили акустические сигналы для восприятия фонетический сегменты (согласные и гласные).

Электронные устройства

Корпус компьютера и синтезатора речи, используемый Стивен Хокинг в 1999 году

Первые компьютерные системы синтеза речи появились в конце 1950-х годов. Норико Умеда и другие. разработал первую общеанглийскую систему преобразования текста в речь в 1968 г. Электротехническая лаборатория в Японии.[8] В 1961 г. физик Джон Ларри Келли младший и его коллега Луи Герстман[9] использовал IBM 704 компьютер для синтеза речи - одно из самых ярких событий в истории Bell Labs.[нужна цитата ] Синтезатор диктофона Келли (вокодер ) воссоздал песню "Дейзи Белл ", с музыкальным сопровождением от Макс Мэтьюз. По совпадению, Артур Кларк навещал своего друга и коллегу Джона Пирса в лаборатории Bell Labs в Мюррей-Хилле. Кларк был настолько впечатлен демонстрацией, что использовал ее в решающей сцене своего сценария для своего романа. 2001: Космическая одиссея,[10] где HAL 9000 компьютер поет ту же песню, что и космонавт Дэйв Боуман усыпляет.[11] Несмотря на успех чисто электронного синтеза речи, исследования механических синтезаторов речи продолжаются.[12][требуется сторонний источник ]

Кодирование с линейным прогнозированием (LPC), форма кодирование речи, начал разработку с работы Фумитада Итакура из Нагойский университет и Сюдзо Сайто из Nippon Telegraph and Telephone (NTT) в 1966 году. Дальнейшие разработки в технологии LPC были сделаны Бишну С. Атал и Манфред Р. Шредер в Bell Labs в течение 1970-х гг.[13] LPC позже стал основой для ранних микросхем синтезатора речи, таких как Речевые чипы Texas Instruments LPC используется в Говори и произноси игрушки 1978 года выпуска.

В 1975 году Фумитада Итакура разработал спектральные пары линий (LSP) для кодирования речи с высокой степенью сжатия, в то время как в NTT.[14][15][16] С 1975 по 1981 год Итакура изучал проблемы анализа и синтеза речи на основе метода LSP.[16] В 1980 году его команда разработала микросхему синтезатора речи на основе LSP. LSP - важная технология для синтеза и кодирования речи, и в 1990-х годах была принята почти всеми международными стандартами кодирования речи в качестве важного компонента, способствующего расширению цифровой речевой связи по мобильным каналам и Интернету.[15]

В 1975 г. МУСА была выпущена и была одной из первых систем синтеза речи. Он состоял из автономного компьютерного оборудования и специального программного обеспечения, позволяющего читать по-итальянски. Вторая версия, выпущенная в 1978 году, также могла петь по-итальянски в стиле «а капелла».

Запись демо DECtalk с использованием голосов Perfect Paul и Uppity Ursula

Доминирующими системами в 1980-х и 1990-х годах были DECtalk система, основанная во многом на работе Деннис Клатт в Массачусетском технологическом институте и системе Bell Labs;[17] последняя была одной из первых многоязычных независимых систем, широко использовавших обработка естественного языка методы.

Портативный Электроника с синтезом речи начала появляться в 1970-х годах. Одним из первых был Telesensory Systems Inc. (TSI) Речь + портативный калькулятор для слепых 1976 г.[18][19] Другие устройства предназначались в первую очередь для образовательных целей, например Игрушка Speak & Spell произведено Инструменты Техаса в 1978 г.[20] В 1979 году Fidelity выпустила говорящую версию своего электронного шахматного компьютера.[21] Первый видео игра к функции синтеза речи был 1980 Пристрели их аркадная игра, Stratovox (известный в Японии как Говори и спасай), от Sun Electronics.[22] Первый игра для персонального компьютера с синтезом речи был Манбики Сёдзё (Девушка-кража), выпущенный в 1980 г. для ПЭТ 2001, для которой разработчик игры Хироши Судзуки разработал "нулевой крест"метод программирования для создания синтезированной речевой волны.[23] Другой ранний пример, аркадная версия Berzerk, также датируется 1980 годом. Компания Милтон Брэдли произвел первый мультиплеер электронная игра с использованием голосового синтеза, Милтон, в том же году.

Ранние электронные синтезаторы речи казались роботизированными и часто были едва разборчивыми. Качество синтезированной речи постоянно улучшается, но по состоянию на 2016 г. выходные данные современных систем синтеза речи по-прежнему четко отличаются от реальной человеческой речи.

Синтезированные голоса обычно казались мужскими до 1990 года, когда Энн Сирдал, в AT&T Bell Laboratories, создал женский голос.[24]

Курцвейл предсказал в 2005 году, что соотношение цены и качества Из-за того, что синтезаторы речи стали дешевле и доступнее, больше людей выиграют от использования программ преобразования текста в речь.[25]

Синтезаторные технологии

Наиболее важные качества системы синтеза речи: естественность и понятность.[26] Естественность описывает, насколько результат звучит как человеческая речь, а разборчивость - это легкость, с которой вывод понимается. Идеальный синтезатор речи одновременно естественен и разборчив. Системы синтеза речи обычно стараются максимизировать обе характеристики.

Двумя основными технологиями генерации синтетических речевых сигналов являются: конкатенативный синтез и формант синтез. У каждой технологии есть сильные и слабые стороны, и предполагаемое использование системы синтеза обычно определяет, какой подход будет использоваться.

Конкатенационный синтез

Конкатенативный синтез основан на конкатенация (или объединение) сегментов записанной речи. Как правило, конкатенативный синтез обеспечивает наиболее естественное звучание синтезированной речи. Однако различия между естественными вариациями речи и природой автоматизированных методов сегментации сигналов иногда приводят к слышимым сбоям на выходе. Есть три основных подтипа конкатенативного синтеза.

Синтез выбора агрегата

Синтез выбора единиц использует большие базы данных записанной речи. Во время создания базы данных каждое записанное высказывание сегментируется на некоторые или все из следующих: отдельные телефоны, дифоны, полутелефоны, слоги, морфемы, слова, фразы, и фразы. Обычно деление на сегменты производится с помощью специально модифицированного распознаватель речи установите режим «принудительного выравнивания» с последующей ручной корректировкой, используя визуальные представления, такие как форма волны и спектрограмма.[27] An показатель единиц в речевой базе данных затем создается на основе сегментации и акустических параметров, таких как основная частота (подача ), длительность, положение в слоге и соседние телефоны. В время выполнения, желаемое целевое высказывание создается путем определения наилучшей цепочки единиц-кандидатов из базы данных (выбор единицы). Этот процесс обычно достигается с помощью специально взвешенного Древо решений.

Выбор единицы измерения обеспечивает максимальную естественность, поскольку применяется лишь небольшое количество цифровая обработка сигналов (DSP) к записанной речи. DSP часто делает записанный речевой звук менее естественным, хотя некоторые системы используют небольшую обработку сигнала в точке конкатенации для сглаживания формы волны. Результат работы лучших систем выбора единиц часто неотличим от реальных человеческих голосов, особенно в тех контекстах, для которых была настроена система TTS. Однако для максимальной естественности обычно требуется, чтобы речевые базы данных с выбором единиц были очень большими, в некоторых системах они могут варьироваться от гигабайты записанных данных, представляющих десятки часов выступления.[28] Кроме того, известны алгоритмы выбора единиц измерения для выбора сегментов из места, что приводит к неидеальному синтезу (например, второстепенные слова становятся нечеткими), даже если в базе данных есть лучший выбор.[29] Недавно исследователи предложили различные автоматизированные методы обнаружения неестественных сегментов в системах синтеза речи с выбором единиц.[30]

Дифонный синтез

Синтез дифонов использует минимальную речевую базу данных, содержащую все дифоны (звуковые переходы), происходящие в языке. Количество дифонов зависит от фонотактика языка: например, в испанском языке около 800 дифонов, а в немецком - около 2500. При синтезе дифонов в речевой базе данных содержится только один пример каждого дифона. Во время выполнения цель просодия предложения накладывается на эти минимальные единицы с помощью цифровая обработка сигналов такие методы, как кодирование с линейным прогнозированием, ПСОЛА[31] или MBROLA.[32] или более современные методы, такие как изменение высоты тона в исходной области с использованием дискретное косинусное преобразование.[33] Синтез дифонов страдает от звуковых сбоев конкатенативного синтеза и роботизированного звучания формантного синтеза, и имеет несколько преимуществ любого подхода, кроме небольшого размера. Таким образом, его использование в коммерческих приложениях сокращается,[нужна цитата ] хотя он продолжает использоваться в исследованиях, потому что существует ряд свободно доступных программных реализаций. Одним из первых примеров синтеза дифонов является обучающий робот leachim, изобретенный Майкл Дж. Фриман.[34] Личим содержал информацию о школьной программе и определенные биографические данные о 40 учениках, которых он был запрограммирован обучать.[35] Тестировалась в классе четвертого класса в г. Бронкс, Нью-Йорк.[36][37]

Доменно-специфический синтез

Синтез, специфичный для предметной области, объединяет заранее записанные слова и фразы для создания законченных высказываний. Он используется в приложениях, в которых набор текстов, выводимых системой, ограничен определенной областью, например объявления о расписании движения транспорта или сводки погоды.[38] Эта технология очень проста в реализации и уже давно используется в коммерческих целях в таких устройствах, как говорящие часы и калькуляторы. Уровень естественности этих систем может быть очень высоким, потому что разнообразие типов предложений ограничено, и они близко соответствуют просодии и интонации оригинальных записей.[нужна цитата ]

Поскольку эти системы ограничены словами и фразами в своих базах данных, они не являются универсальными и могут только синтезировать комбинации слов и фраз, с которыми они были предварительно запрограммированы. Однако смешение слов в естественной речи может вызывать проблемы, если не принимать во внимание множество вариаций. Например, в неротический диалекты английского языка "р" такими словами, как "Чисто" / ˈKlɪə / обычно произносится только тогда, когда следующее слово имеет гласную в качестве первой буквы (например, "вычищать" реализуется как / ˌKlɪəɹˈʌʊt /). Точно так же в Французский, многие конечные согласные перестают быть беззвучными, если за ними следует слово, начинающееся с гласной; эффект называется связь. Эта чередование невозможно воспроизвести с помощью простой системы конкатенации слов, что потребовало бы дополнительной сложности контекстно-зависимый.

Формантный синтез

Formant синтез не использует образцы человеческой речи во время выполнения. Вместо этого синтезированный речевой вывод создается с использованием аддитивный синтез и акустическая модель (синтез физического моделирования ).[39] Такие параметры как основная частота, озвучивание, и шум уровни меняются со временем, чтобы создать форма волны искусственной речи. Этот метод иногда называют синтез на основе правил; однако многие конкатенативные системы также имеют компоненты, основанные на правилах. Многие системы, основанные на технологии формантного синтеза, генерируют искусственную, звучащую как робот речь, которую никогда нельзя принять за человеческую. Однако максимальная естественность не всегда является целью системы синтеза речи, и системы синтеза формант имеют преимущества перед системами конкатенации. Форманта-синтезированная речь может быть надежно разборчивой даже на очень высоких скоростях, что позволяет избежать акустических сбоев, которые обычно мешают конкатенативным системам. Слабовидящие люди используют высокоскоростную синтезированную речь для быстрой навигации по компьютеру с помощью читатель экрана. Формантные синтезаторы обычно представляют собой программы меньшего размера, чем конкатенативные системы, потому что у них нет базы данных речевых образцов. Поэтому их можно использовать в встроенные системы, где объем памяти и микропроцессор мощность особенно ограничена. Поскольку системы на основе формант имеют полный контроль над всеми аспектами выходной речи, широким спектром просодий и интонации можно выводить, передавая не только вопросы и утверждения, но и различные эмоции и тона голоса.

Примеры высокоточного управления интонацией не в реальном времени в синтезе формант включают работу, выполненную в конце 1970-х годов для Инструменты Техаса игрушка Говори и произноси, а в начале 1980-х гг. Sega аркада машины[40] и во многих Atari, Inc. аркадные игры[41] с использованием TMS5220 LPC Чипы. Создание правильной интонации для этих проектов было кропотливым делом, и результаты еще предстоит сопоставить с интерфейсами преобразования текста в речь в реальном времени.[42]

Артикуляционный синтез

Артикуляционный синтез относится к вычислительным методам синтеза речи на основе моделей человеческого голосовой тракт и происходящие там процессы артикуляции. Первый артикуляционный синтезатор, регулярно используемый для лабораторных экспериментов, был разработан в г. Лаборатории Хаскинса в середине 1970-х годов Филип Рубин, Том Бэр и Пол Мермельштейн. Этот синтезатор, известный как ASY, был основан на моделях речевого тракта, разработанных в Bell Laboratories в 1960-х и 1970-х - Пол Мермельштейн, Сесил Кокер и его коллеги.

До недавнего времени модели артикуляционного синтеза не были включены в коммерческие системы синтеза речи. Заметным исключением является Следующий -система, первоначально разработанная и проданная Trillium Sound Research, дочерней компанией Университет Калгари, где проводилась большая часть оригинальных исследований. После прекращения существования различных воплощений NeXT (начатой Стив Джобс в конце 1980-х и слился с Apple Computer в 1997), программное обеспечение Trillium было опубликовано под Стандартной общественной лицензией GNU, и работа продолжалась как gnuspeech. Система, впервые поступившая на рынок в 1994 году, обеспечивает полное преобразование текста в речь на основе артикуляции с использованием волновода или аналога линии передачи орального и носового трактов человека, контролируемого «моделью отличительной области» Карре.

Более современные синтезаторы, разработанные Хорхе К. Лусеро и его коллегами, включают модели биомеханики голосовых складок, аэродинамики голосовой щели и распространения акустических волн в бронхах, трахее, носовой и ротовой полостях и, таким образом, представляют собой полные системы моделирования речи на основе физики.[43][44]

Синтез на основе HMM

Синтез на основе HMM - это метод синтеза, основанный на скрытые марковские модели, также называемый статистическим параметрическим синтезом. В этой системе частотный спектр (голосовой тракт ), основная частота (источник голоса) и продолжительность (просодия ) речи одновременно моделируются HMM. Речь формы волны генерируются из самих HMM на основе максимальная вероятность критерий.[45]

Синтез синусоидального сигнала

Синтез синусоидального сигнала это метод синтеза речи путем замены форманты (основные энергетические полосы) со свистом чистого тона.[46]

Синтез на основе глубокого обучения

Формулировка

Учитывая введенный текст или некоторую последовательность лингвистической единицы , целевая речь может быть получен

где - параметр модели.

Обычно вводимый текст сначала передается в генератор акустических характеристик, а затем акустические характеристики передаются в нейронный вокодер. Для генератора акустических характеристик Функция потерь Обычно это потеря L1 или L2. Эти функции потерь накладывают ограничение на то, что выходные акустические распределения характеристик должны быть гауссовскими или лапласовскими. На практике, поскольку диапазон частот человеческого голоса составляет примерно от 300 до 4000 Гц, функция потерь будет рассчитана на большее наказание в этом диапазоне:

где потеря диапазона человеческого голоса и - это скаляр, обычно около 0,5. Акустическая характеристика обычно Спектрограмма или спектрограмма в Шкала Мел. Эти функции фиксируют частотно-временную зависимость речевого сигнала, и поэтому достаточно генерировать интеллектуальные выходные данные с этими акустическими характеристиками. В Мел-частотный кепстр Функция, используемая в задаче распознавания речи, не подходит для синтеза речи, поскольку сокращает слишком много информации.

Краткая история

В сентябре 2016 г. DeepMind предложенный WaveNet, глубокая генеративная модель необработанных звуковых сигналов. Это показывает сообществу, что модели, основанные на глубоком обучении, могут моделировать необработанные формы сигналов и хорошо работать при генерации речи из акустических функций, таких как спектрограммы или спектрограммы в мел-шкале, или даже из некоторых предварительно обработанных лингвистических функций. В начале 2017 г. Мила (научно-исследовательский институт) предложенный char2wav, модель для получения необработанной формы сигнала сквозным методом. Также, Google и Facebook предложенный Такотрон и VoiceLoop, соответственно, для создания акустических характеристик непосредственно из введенного текста. Позднее в том же году Google предложил Такотрон2 который объединил вокодер WaveNet с обновленной архитектурой Tacotron для выполнения сквозного синтеза речи. Tacotron2 может генерировать высококачественную речь, приближающуюся к человеческому голосу. С тех пор сквозные методы стали самой горячей темой исследований, потому что многие исследователи во всем мире начинают замечать мощь сквозного синтезатора речи.

Преимущества и недостатки

Преимущества сквозных методов заключаются в следующем:

  • Требуется только одна модель для выполнения анализа текста, акустического моделирования и синтеза звука, т. Е. Синтеза речи непосредственно из символов.
  • Меньше разработки функций
  • Легко допускает обширную обусловленность различных атрибутов, например говорящий или язык
  • Адаптация к новым данным проще
  • Более надежен, чем многоступенчатые модели, потому что ошибка компонента не может усугубить
  • Мощные возможности модели для захвата скрытых внутренних структур данных
  • Способен генерировать понятную и естественную речь
  • Нет необходимости поддерживать большую базу данных, т. Е. Небольшую площадь

Несмотря на многие упомянутые преимущества, сквозные методы по-прежнему имеют много проблем, которые необходимо решить:

  • Модели на основе авторегрессии страдают от проблемы медленного вывода
  • Выходная речь не является надежной, когда данных недостаточно
  • Отсутствие управляемости по сравнению с традиционными конкатенативными и статистически параметрическими подходами
  • Стремитесь изучать плоскую просодию, усредняя тренировочные данные
  • Как правило, выводятся сглаженные акустические характеристики, поскольку используются потери l1 или l2

Вызовы

- Проблема медленного вывода

Чтобы решить проблему медленного вывода, Microsoft исследования и Baidu В обоих исследованиях предлагалось использовать неавторегрессивные модели, чтобы ускорить процесс вывода. В FastSpeech Модель, предложенная Microsoft, использует архитектуру Transformer с моделью продолжительности для достижения цели. Кроме того, модель продолжительности, заимствованная из традиционных методов, делает производство речи более устойчивым.

- Проблема устойчивости

Исследователи обнаружили, что проблема устойчивости тесно связана с ошибками выравнивания текста, и это побуждает многих исследователей пересмотреть механизм внимания, который использует сильную локальную связь и монотонность речи.

- Проблема управляемости

Для решения проблемы управляемости предлагается множество работ по вариационному автокодировщику.[47][48]

- Плоская проблема просодии

GST-Tacotron может немного облегчить проблему плоской просодии, однако это все еще зависит от данных обучения.

- Проблема сглаженной акустической мощности

Для создания более реалистичных акустических характеристик можно применить стратегию обучения GAN.

Однако на практике нейронный вокодер может хорошо обобщать, даже когда входные характеристики более гладкие, чем реальные данные.

Полу-контролируемое обучение

В настоящее время обучение с самоконтролем привлекает много внимания из-за более эффективного использования немаркированных данных. Исследование[49][50] показывает, что с помощью самоконтролируемой потери потребность в парных данных уменьшается.

Адаптация динамика Zero-shot

Адаптация говорящего с нулевым выстрелом является многообещающей, потому что одна модель может генерировать речь с различными стилями и характеристиками говорящего. В июне 2018 года Google предложил использовать предварительно обученную модель верификации говорящего в качестве кодировщика динамика для извлечения встраивания говорящего.[51]. Затем кодировщик динамика становится частью нейронной модели преобразования текста в речь, и он может определять стиль и характеристики выходной речи. Это показывает сообществу, что возможно использование только одной модели для создания речи, состоящей из нескольких стилей.

Нейронный вокодер

Нейронный вокодер играет важную роль в синтезе речи на основе глубокого обучения для генерации высококачественной речи на основе акустических характеристик. В WaveNet Предлагаемая в 2016 году модель демонстрирует отличные показатели по качеству речи. Wavenet факторизует совместную вероятность формы волны как произведение условных вероятностей следующим образом

куда - параметр модели, включающий множество расширенных сверточных слоев. Таким образом, каждый звуковой образец поэтому обусловлено выборками на всех предыдущих временных шагах. Однако авторегрессивный характер WaveNet значительно замедляет процесс вывода. Чтобы решить проблему медленного вывода, которая возникает из-за авторегрессивной характеристики модели WaveNet, Parallel WaveNet[52] предлагается. Parallel WaveNet - это модель на основе обратного авторегрессионного потока, которая обучается путем дистилляции знаний с помощью предварительно обученной модели WaveNet учителя. Поскольку модель на основе обратного авторегрессионного потока не является авторегрессивной при выполнении вывода, скорость вывода выше, чем в реальном времени. А пока Nvidia предложил FlowGlow на основе потока[53] модель, которая также может генерировать речь быстрее, чем в реальном времени. Однако, несмотря на высокую скорость вывода, параллельная сеть WaveNet имеет ограничение, заключающееся в необходимости предварительно обученной модели WaveNet, и WaveGlow требуется много недель, чтобы сойтись с ограниченными вычислительными устройствами. Этот вопрос решает Parallel WaveGAN.[54] который учится воспроизводить речь за счет потери спектра с несколькими разрешениями и стратегии обучения GAN.

Вызовы

Проблемы нормализации текста

Процесс нормализации текста редко бывает простым. Тексты полны гетеронимы, числа, и сокращения все это требует расширения в фонетическое представление. В английском есть много вариантов написания, которые произносятся по-разному в зависимости от контекста. Например, «Мой последний проект - научиться лучше проецировать свой голос» содержит два варианта произношения «проект».

Большинство систем преобразования текста в речь (TTS) не генерируют семантический представления их входных текстов, поскольку процессы для этого ненадежны, плохо поняты и вычислительно неэффективны. В результате различные эвристический используются методы, чтобы угадать правильный способ устранения неоднозначности омографы, например, изучение соседних слов и использование статистики о частоте появления.

Недавно системы TTS начали использовать HMM (обсуждаемые выше) для создания "части речи «для помощи в устранении неоднозначности омографов. Этот метод весьма успешен во многих случаях, например, следует ли произносить слово« прочитанное »как« красный », подразумевая прошедшее время, или как« тростник », подразумевающее настоящее время. Типичная частота ошибок при использовании HMM таким образом обычно ниже пяти процентов. Эти методы также подходят для большинства европейских языков, хотя доступ к необходимому обучению корпус на этих языках часто бывает сложно.

Решение о том, как преобразовать числа, - это еще одна проблема, которую необходимо решить системам TTS. Преобразование числа в слова (по крайней мере, на английском языке) - это простая задача программирования, например, «1325» превращается в «одну тысячу триста двадцать пять». Однако числа встречаются во многих различных контекстах; «1325» также можно читать как «один, три два, пять», «тринадцать двадцать пять» или «тринадцатьсот двадцать пять». Система TTS часто может сделать вывод, как расширить число, на основе окружающих слов, чисел и знаков препинания, а иногда система предоставляет способ указать контекст, если он неоднозначен.[55] Римские цифры также могут читаться по-разному в зависимости от контекста. Например, «Генрих VIII» читается как «Генрих Восьмой», а «Глава VIII» читается как «Глава восьмая».

Точно так же сокращения могут быть неоднозначными. Например, аббревиатуру «in» для «дюймов» следует отличать от слова «in» и адреса «12 St John St. использует одну и ту же аббревиатуру для слов «Святой» и «Улица». Системы TTS с интеллектуальными интерфейсами могут делать обоснованные предположения о двусмысленных сокращениях, в то время как другие обеспечивают одинаковый результат во всех случаях, что приводит к бессмысленным (а иногда и смешным) выводам, например "Улисс С. Грант "отображается как" Улисс Южный Грант ".

Проблемы преобразования текста в фонемы

Системы синтеза речи используют два основных подхода для определения произношения слова на основе его орфография, процесс, который часто называют преобразованием текста в фонему или графема преобразование в фонемы (фонема термин, используемый лингвисты описывать отличительные звуки в язык ). Самый простой подход к преобразованию текста в фонемы - это подход на основе словаря, когда большой словарь, содержащий все слова языка и их правильные произношение хранится программой. Определение правильного произношения каждого слова - это поиск каждого слова в словаре и замена написания произношением, указанным в словаре. Другой подход основан на правилах, при котором правила произношения применяются к словам для определения их произношения на основе их написания. Это похоже на «зондирование», или синтетическая акустика, подход к обучению чтению.

У каждого подхода есть свои преимущества и недостатки. Подход, основанный на словарях, является быстрым и точным, но совершенно не работает, если ему дают слово, которого нет в его словаре. По мере роста размера словаря растут и требования к объему памяти системы синтеза. С другой стороны, подход, основанный на правилах, работает с любым вводом, но сложность правил значительно возрастает, поскольку система учитывает неправильное написание или произношение. (Учтите, что слово «of» очень распространено в английском языке, но это единственное слово, в котором буква «f» произносится [v].) В результате почти все системы синтеза речи используют комбинацию этих подходов.

Языки с фонематическая орфография имеют очень регулярную систему письма, и предсказание произношения слов на основе их написания довольно успешное. Системы синтеза речи для таких языков часто широко используют метод, основанный на правилах, прибегая к словарям только для этих нескольких слов, таких как иностранные имена и заимствования, чье произношение не очевидно из их написания. С другой стороны, системы синтеза речи для таких языков, как английский, которые имеют крайне нерегулярную систему правописания, с большей вероятностью будут полагаться на словари и использовать методы на основе правил только для необычных слов или слов, которых нет в их словарях.

Проблемы оценки

Последовательная оценка систем синтеза речи может быть затруднена из-за отсутствия универсально согласованных объективных критериев оценки. В разных организациях часто используются разные речевые данные. Качество систем синтеза речи также зависит от качества производственной техники (которая может включать аналоговую или цифровую запись) и от средств, используемых для воспроизведения речи. Поэтому оценка систем синтеза речи часто затруднялась из-за различий между методами производства и средствами воспроизведения.

Однако с 2005 года некоторые исследователи начали оценивать системы синтеза речи, используя общий набор речевых данных.[56]

Просодика и эмоциональное содержание

Исследование в журнале Речевое общение Эми Драхота и ее коллеги из Портсмутский университет, Великобритания, сообщил, что слушатели голосовых записей могли с большей вероятностью определить, улыбается ли говорящий или нет.[57][58][59] Было высказано предположение, что идентификация голосовых характеристик, которые сигнализируют об эмоциональном содержании, может быть использована для того, чтобы сделать синтезированную речь более естественной. Одна из связанных проблем - модификация контур тангажа предложения, в зависимости от того, является ли оно утвердительным, вопросительным или восклицательным. Один из приемов модификации высоты тона[60] использует дискретное косинусное преобразование в исходном домене (линейное предсказание остаточный). Для таких методов синхронной модификации основного тона требуется априорная маркировка основного тона базы данных синтезированной речи с использованием таких методов, как извлечение эпохи с использованием динамического взрыв индекс, применяемый к интегрированному остатку линейного предсказания озвучен области речи.[61]

Выделенное оборудование

Аппаратно-программные комплексы

Популярные системы, предлагающие синтез речи как встроенную функцию.

Mattel

В Mattel Intellivision игровая консоль предложила Intellivoice Модуль голосового синтеза в 1982 году. Он включал SP0256 Рассказчик Микросхема синтезатора речи на съемном картридже. У экранного диктора было 2 Кбайт постоянной памяти (ПЗУ), и она использовалась для хранения базы данных общих слов, которые можно было комбинировать для создания фраз в играх Intellivision. Поскольку микросхема Orator могла также принимать речевые данные из внешней памяти, любые дополнительные необходимые слова или фразы могли храниться внутри самого картриджа. Данные состояли из строк коэффициентов аналогового фильтра для изменения поведения синтетической модели голосового тракта чипа, а не из простых оцифрованных образцов.

СЭМ

Демонстрация SAM на C64

Также выпущен в 1982 году, Программное обеспечение Автоматический рот была первой коммерческой полностью программной программой для синтеза голоса. Позже он был использован в качестве основы для Macintalk. Программа была доступна для компьютеров Apple, отличных от Macintosh (включая Apple II и Lisa), различных моделей Atari и Commodore 64. Версия Apple предпочитала дополнительное оборудование, содержащее ЦАП, хотя вместо этого она могла использовать однобитный звук компьютера. вывод (с добавлением сильных искажений), если карты не было. Atari использовала встроенный аудиочип POKEY. Воспроизведение речи на Atari обычно отключает запросы прерывания и выключает чип ANTIC во время вывода голоса. Слышимый звук - это чрезвычайно искаженная речь, когда экран включен. Commodore 64 использовал встроенный звуковой чип SID 64.

Atari

Возможно, первая речевая система, интегрированная в Операционная система были персональные компьютеры 1400XL / 1450XL, разработанные Atari, Inc. с использованием микросхемы Votrax SC01 в 1983 году. В компьютерах 1400XL / 1450XL использовался конечный автомат для преобразования текста в речь World English Spelling.[63] К сожалению, персональные компьютеры 1400XL / 1450XL никогда не поставлялись в больших количествах.

В Atari ST компьютеры продавались с "stspeech.tos" на дискетах.

яблоко

Первая речевая система, интегрированная в Операционная система отгруженное количество было Компьютер Apple с MacInTalk. Программное обеспечение было лицензировано сторонними разработчиками Джозефом Кацем и Марком Бартоном (позже SoftVoice, Inc.) и использовалось во время выпуска компьютеров Macintosh в 1984 году. Эта январская демонстрация потребовала 512 килобайт оперативной памяти. В результате он не мог работать в 128 килобайтах оперативной памяти, с которой фактически поставлялся первый Mac.[64] Итак, демонстрация была выполнена на прототипе Mac 512k, хотя присутствующим не сказали об этом, и демонстрация синтеза вызвала значительный ажиотаж для Macintosh. В начале 1990-х Apple расширила свои возможности, предложив общесистемную поддержку преобразования текста в речь. С появлением более быстрых компьютеров на базе PowerPC они включили более качественную выборку голоса. Apple также представила распознавание речи в свои системы, которые обеспечивали гибкий набор команд. Совсем недавно Apple добавила голоса на основе семплов. Начнем с того, что речевая система Apple Macintosh превратилась в полностью поддерживаемую программу, PlainTalk, для людей с проблемами зрения. VoiceOver был впервые показан в 2005 году в Mac OS X Tiger (10.4). В 10.4 (Tiger) и первых выпусках 10.5 (Леопард ) в Mac OS X поставлялась только одна стандартная голосовая связь. Начиная с версии 10.6 (Снежный барс ), пользователь может выбирать из широкого списка нескольких голосов. Голоса VoiceOver обеспечивают реалистичное дыхание между предложениями, а также улучшенную четкость при высокой скорости чтения по сравнению с PlainTalk. Mac OS X также включает сказать, а на основе командной строки приложение, которое преобразует текст в слышимую речь. В AppleScript Стандартные дополнения включают сказать глагол, который позволяет сценарию использовать любой из установленных голосов и управлять высотой тона, скоростью речи и модуляцией произносимого текста.

Яблоко iOS операционная система, используемая на iPhone, iPad и iPod Touch, использует VoiceOver синтез речи для доступности.[65] Некоторые сторонние приложения также обеспечивают синтез речи для облегчения навигации, чтения веб-страниц или перевода текста.

Amazon

Используется в Алекса и в качестве Программное обеспечение как сервис в AWS[66] (с 2017 года).

AmigaOS

Пример синтеза речи с включенной утилитой Say в Workbench 1.3
SoftVoice.svg

Вторая операционная система с расширенными возможностями синтеза речи была AmigaOS, представленный в 1985 году. Синтез голоса был лицензирован Commodore International от SoftVoice, Inc., который также разработал оригинальную систему преобразования текста в речь MacinTalk. Он имел полную систему эмуляции голоса для американского английского, с мужскими и женскими голосами и маркерами "стресса", что стало возможным благодаря Amiga аудио чипсет.[67] Система синтеза была разделена на библиотеку переводчика, которая конвертировала неограниченный английский текст в стандартный набор фонетических кодов, и устройство рассказчика, которое реализовало формантную модель генерации речи. AmigaOS также имела высокоуровневый "Говорите обработчик ", который позволял пользователям командной строки перенаправлять вывод текста в речь. Синтез речи иногда использовался в сторонних программах, особенно в текстовых процессорах и образовательном программном обеспечении. Программное обеспечение для синтеза оставалось в основном неизменным с первого выпуска AmigaOS, и Commodore в конечном итоге удалил синтез речи поддержка от AmigaOS 2.1 и выше.

Несмотря на ограничение фонем американского английского языка, была разработана неофициальная версия с многоязычным синтезом речи. При этом использовалась расширенная версия библиотеки переводчика, которая могла переводить на несколько языков с учетом набора правил для каждого языка.[68]

Майкрософт Виндоус

Современный Windows настольные системы могут использовать SAPI 4 и SAPI 5 компоненты для поддержки синтеза речи и распознавание речи. SAPI 4.0 был доступен как дополнительное дополнение для Windows 95 и Windows 98. Windows 2000 добавлено Рассказчик, программа преобразования текста в речь для людей с нарушениями зрения. Сторонние программы, такие как JAWS для Windows, Window-Eyes, Non-visual Desktop Access, Supernova и System Access, могут выполнять различные задачи преобразования текста в речь, такие как чтение текста вслух с указанного веб-сайта, учетной записи электронной почты, текстового документа, Буфер обмена Windows, набор текста с клавиатуры пользователя и т. Д. Не все программы могут напрямую использовать синтез речи.[69] Некоторые программы могут использовать плагины, расширения или надстройки для чтения текста вслух. Доступны сторонние программы, умеющие читать текст из системного буфера обмена.

Речевой сервер Microsoft - это серверный пакет для синтеза и распознавания голоса. Он предназначен для использования в сети с веб-приложения и колл-центры.

Техасские инструменты TI-99 / 4A

Демонстрация речи TI-99 / 4A с использованием встроенного словаря

В начале 1980-х TI была известна как пионер в синтезе речи, и для TI-99/4 и 4A был доступен очень популярный подключаемый модуль синтезатора речи. Синтезаторы речи предлагались бесплатно при покупке ряда картриджей и использовались во многих видеоиграх, написанных TI (известные названия, предлагаемые с речью во время этой акции, были Альпинер и Парсек ). Синтезатор использует вариант кодирования с линейным предсказанием и имеет небольшой встроенный словарь. Первоначальное намерение состояло в том, чтобы выпустить небольшие картриджи, которые подключались непосредственно к блоку синтезатора, что увеличило бы встроенный словарный запас устройства. Однако успех программного преобразования текста в речь в картридже Terminal Emulator II отменил этот план.

Системы преобразования текста в речь

Текст в речь (TTS) относится к способности компьютеров читать текст вслух. А TTS Engine преобразует письменный текст в фонематическое представление, затем преобразует фонематическое представление в формы волны, которые могут выводиться как звук. Механизмы TTS с различными языками, диалектами и специализированными словарями доступны через сторонних издателей.[70]

Android

Версия 1.6 из Android добавлена ​​поддержка синтеза речи (TTS).[71]

Интернет

В настоящее время существует ряд Приложения, плагины и гаджеты который может читать сообщения прямо из почтовый клиент и веб-страницы из веб-браузер или Панель инструментов Google. Некоторые специализированные программного обеспечения могу рассказать RSS-каналы. С одной стороны, онлайн-дикторы RSS упрощают доставку информации, позволяя пользователям слушать свои любимые источники новостей и конвертировать их в подкасты. С другой стороны, он-лайн RSS-ридеры доступны практически на любом ПК подключен к Интернету. Пользователи могут загружать сгенерированные аудиофайлы на портативные устройства, например с помощью подкаст приемник и слушайте их во время прогулки, бега трусцой или по дороге на работу.

Растущая сфера TTS на основе Интернета - это веб-технология. вспомогательные технологии, например "Browsealoud" от британской компании и Читает спикер. Он может предоставить функциональность TTS любому (по причинам доступности, удобства, развлечения или информации), имеющему доступ к веб-браузеру. В некоммерческий проект Педиафон был создан в 2006 году, чтобы предоставить аналогичный веб-интерфейс TTS для Википедия.[72]

Другая работа ведется в контексте W3C сквозь Группа W3C Audio Incubator при участии BBC и Google Inc.

Открытый исходный код

Немного программное обеспечение с открытым исходным кодом системы доступны, такие как:

Другие

  • После коммерческого провала аппаратной технологии Intellivoice разработчики игр стали экономно использовать программный синтез в более поздних играх.[нужна цитата ]. Более ранние системы от Atari, такие как Atari 5200 (Бейсбол) и Atari 2600 (Quadrun и Open Sesame), также были игры, использующие синтез программного обеспечения.[нужна цитата ]
  • Немного читатели электронных книг, такой как Amazon Kindle, Samsung E6, PocketBook eReader Pro, ОБНОВЛЕНИЕ ЭДЖЕ, и Bebook Neo.
  • В BBC Micro встроенный чип синтеза речи Texas Instruments TMS5220,
  • Некоторые модели домашних компьютеров Texas Instruments 1979 и 1981 годов выпуска (Texas Instruments TI-99/4 и TI-99 / 4A ) были способны синтезировать текст в фонемы или произносить полные слова и фразы (преобразование текста в словарь) с использованием очень популярного периферийного синтезатора речи. TI использовал проприетарный кодек вставлять полные разговорные фразы в приложения, прежде всего в видеоигры.[74]
  • IBM с OS / 2 Warp 4 включен VoiceType, предшественник IBM ViaVoice.
  • GPS Навигационные блоки производства Garmin, Магеллан, TomTom и другие используют синтез речи для автомобильной навигации.
  • Ямаха произвел музыкальный синтезатор в 1999 г. Yamaha FS1R который включал возможность синтеза форманта. Последовательности до 512 отдельных гласных и согласных формант могут быть сохранены и воспроизведены, что позволяет синтезировать короткие вокальные фразы.

Цифровые звуки

С введением в 2016 г. Adobe Voco редактирование аудио и создание прототипа программного обеспечения, которое должно стать частью Adobe Creative Suite и аналогично включенный DeepMind WaveNet, а глубокая нейронная сеть программное обеспечение для синтеза звука на основе Google [75] синтез речи практически неотличим от голоса настоящего человека.

Adobe Voco отводит примерно 20 минут речи желаемой цели, после чего может генерировать звук, похожий на голос, даже с фонемы которые не присутствовали в тренировочный материал. Программное обеспечение создает этические проблемы, поскольку позволяет украсть голоса других людей и манипулировать ими, чтобы сказать все, что угодно.[76]

На 2018 Конференция по нейронным системам обработки информации (NeurIPS) исследователи из Google представил работу «Перенос обучения от проверки говорящего на синтез речи с множеством говорящих», который передает обучение от проверка говорящего для преобразования текста в речь, который можно сделать так, чтобы он звучал почти как любой из фрагмента речи всего за 5 секунд (Слушать).[77]

Также исследователи из Baidu Research представил клонирование голоса система с аналогичными целями на конференции NeurIPS 2018[78], хотя результат неубедительный. (Слушать)

К 2019 году цифровые звуковые дорожки попали в руки преступников. Symantec исследователям известно о 3 случаях, когда технология цифровых звуков использовалась для преступление.[79][80]

Это увеличивает нагрузку на дезинформация ситуация в сочетании с фактами, что

В марте 2020 г. бесплатное ПО веб приложение который генерирует высококачественные голоса из набора вымышленных персонажей из различных медиа-источников, называемых 15.ai был выпущен.[83] Включены начальные символы ГЛаДОС от Портал, Сумеречная Искорка и Флаттершай из шоу Мой маленький пони: дружба - это чудо, а Десятый доктор от Доктор Кто. Последующие обновления включены Уитли от Портал 2, Солдат из Team Fortress 2, а оставшийся основной состав Мой маленький пони: дружба - это чудо.[84][85]

Языки разметки синтеза речи

Количество языки разметки были установлены для воспроизведения текста как речи в XML -соответствующий формат. Самая последняя Язык разметки синтеза речи (SSML), которая стала Рекомендация W3C в 2004 году. Старые языки разметки синтеза речи включают Java Speech Markup Language (JSML ) и САБЛЕ. Хотя каждый из них был предложен в качестве стандарта, ни один из них не получил широкого распространения.

Языки разметки синтеза речи отличаются от языков разметки диалогов. VoiceXML, например, включает в себя теги, относящиеся к распознаванию речи, управлению диалогами и тональному набору, в дополнение к разметке преобразования текста в речь.

Приложения

Синтез речи долгое время был жизненно важным вспомогательные технологии инструмент и его применение в этой области значимо и широко. Это позволяет устранить экологические барьеры для людей с различными формами инвалидности. Самое долгое приложение использовалось программы чтения с экрана для людей с нарушение зрения, но системы преобразования текста в речь сейчас широко используются людьми с дислексия и другие трудности с чтением, а также у малообразованных детей. Их также часто используют для помощи людям с тяжелыми заболеваниями. нарушение речи обычно через специальный голосовое средство связи.

Методы синтеза речи также используются в развлекательных программах, таких как игры и анимация. В 2007 году Animo Limited объявила о разработке пакета прикладных программ на основе своего программного обеспечения для синтеза речи FineSpeech, специально предназначенного для клиентов в индустрии развлечений, способного генерировать повествование и диалоги в соответствии с пользовательскими спецификациями.[86] Приложение достигло срока погашения в 2008 году, когда NEC Biglobe анонсировала веб-сервис, который позволяет пользователям создавать фразы из голосов Код Гиас: Лелуш Восстания R2 символы.[87]

В последние годы преобразование текста в речь для людей с ограниченными возможностями и средств коммуникации для людей с ограниченными возможностями стало широко использоваться в сфере массового транспорта. Синтез речи также находит новые применения за пределами рынка людей с ограниченными возможностями. Например, синтез речи в сочетании с распознавание речи, позволяет взаимодействовать с мобильными устройствами через обработка естественного языка интерфейсы.

Синтез речи также используется при освоении второго языка. Например, Voki - это образовательный инструмент, созданный Oddcast, который позволяет пользователям создавать свой собственный говорящий аватар, используя разные акценты. Их можно отправлять по электронной почте, размещать на веб-сайтах или публиковать в социальных сетях.

Кроме того, синтез речи является ценным вычислительным помощником для анализа и оценки речевых нарушений. А качество голоса синтезатор, разработанный Хорхе К. Лусеро и др. в Университет Бразилиа, моделирует физику звучание и включает модели дрожания и тремора голосовой частоты, шума воздушного потока и асимметрии гортани.[43] Синтезатор был использован для имитации тембр из дисфонический динамики с контролируемыми уровнями грубости, одышки и напряжения.[44]

Стивен Хокинг был одним из самых известных людей, использующих речевой компьютер для общения

Смотрите также

использованная литература

  1. ^ Аллен, Джонатан; Ханникатт, М. Шарон; Клатт, Деннис (1987). От текста к речи: система MITalk. Издательство Кембриджского университета. ISBN  978-0-521-30641-6.
  2. ^ Рубин, П .; Baer, ​​T .; Мермельштейн, П. (1981). «Артикуляционный синтезатор для исследования восприятия». Журнал Акустического общества Америки. 70 (2): 321–328. Bibcode:1981ASAJ ... 70..321R. Дои:10.1121/1.386780.
  3. ^ ван Сантен, Ян П. Х .; Sproat, Ричард В .; Олив, Джозеф П .; Хиршберг, Юлия (1997). Прогресс в синтезе речи. Springer. ISBN  978-0-387-94701-3.
  4. ^ Ван Сантен, Дж. (Апрель 1994 г.). «Назначение длительности сегмента в синтезе текста в речь». Компьютерная речь и язык. 8 (2): 95–128. Дои:10.1006 / csla.1994.1005.
  5. ^ История и развитие синтеза речи, Хельсинкский технологический университет, последнее посещение - 4 ноября 2006 г.
  6. ^ Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine («Механизм человеческой речи с описанием его говорящей машины», Дж. Б. Деген, Вена). (на немецком)
  7. ^ Маттингли, Игнатий Г. (1974). Себеок, Томас А. (ред.). «Синтез речи для фонетических и фонологических моделей» (PDF). Современные тенденции в лингвистике. Мутон, Гаага. 12: 2451–2487. Архивировано из оригинал (PDF) на 2013-05-12. Получено 2011-12-13.
  8. ^ Клатт, Д. (1987). «Обзор преобразования текста в речь для английского языка». Журнал Акустического общества Америки. 82 (3): 737–93. Bibcode:1987ASAJ ... 82..737K. Дои:10.1121/1.395275. PMID  2958525.
  9. ^ Ламберт, Брюс (21 марта 1992 г.). "Луи Герстман, 61 год, специалист по речевым расстройствам и процессам". Нью-Йорк Таймс.
  10. ^ "Биография Артура Кларка". Архивировано из оригинал 11 декабря 1997 г.. Получено 5 декабря 2017.
  11. ^ «Где« HAL »впервые заговорил (веб-сайт Bell Labs Speech Synthesis)». Bell Labs. Архивировано из оригинал на 2000-04-07. Получено 2010-02-17.
  12. ^ Антропоморфный говорящий робот серии Васеда-говорящий В архиве 2016-03-04 в Wayback Machine
  13. ^ Грей, Роберт М. (2010). «История цифровой речи в режиме реального времени в пакетных сетях: часть II линейного предсказательного кодирования и Интернет-протокола» (PDF). Найденный. Тенденции сигнального процесса. 3 (4): 203–303. Дои:10.1561/2000000036. ISSN  1932-8346.
  14. ^ Zheng, F .; Песня, З .; Li, L .; Ю. В. (1998). «Измерение расстояния для пар спектральных линий, применяемое для распознавания речи» (PDF). Труды 5-й Международной конференции по обработке разговорной речи (ICSLP'98) (3): 1123–6.
  15. ^ а б «Список этапов развития IEEE». IEEE. Получено 15 июля 2019.
  16. ^ а б "Устная история Фумитада Итакура". Сеть глобальной истории IEEE. 20 мая 2009 г.. Получено 2009-07-21.
  17. ^ Спроут, Ричард В. (1997). Синтез речи на нескольких языках: подход Bell Labs. Springer. ISBN  978-0-7923-8027-6.
  18. ^ [TSI Speech + и другие калькуляторы разговорной речи]
  19. ^ Геварьяху, Джонатан, ["Руководство по интегральной схеме БИС синтезатора речи TSI S14001A"][мертвая ссылка ]
  20. ^ Бреслоу и др. США 4326710 : «Говорящая электронная игра», 27 апреля 1982 г.
  21. ^ Голосовой Chess Challenger
  22. ^ Наиболее важные изменения в игровой индустрии В архиве 2011-06-15 на Wayback Machine, GamesRadar
  23. ^ Щепаниак, Джон (2014). Нерассказанная история японских разработчиков игр. 1. SMG Szczepaniak. С. 544–615. ISBN  978-0992926007.
  24. ^ CadeMetz (2020-08-20). «Энн Сырдал, которая помогла придать компьютерам женский голос, умерла в 74 года». Нью-Йорк Таймс. Получено 2020-08-23.
  25. ^ Курцвейл, Раймонд (2005). Сингулярность близка. Книги о пингвинах. ISBN  978-0-14-303788-0.
  26. ^ Тейлор, Пол (2009). Синтез речи в текст. Кембридж, Великобритания: Издательство Кембриджского университета. п.3. ISBN  9780521899277.
  27. ^ Алан В. Блэк, Идеальный синтез для всех людей в любое время. IEEE TTS Workshop 2002.
  28. ^ Джон Коминек и Алан В. Блэк. (2003). CMU ARCTIC базы данных для синтеза речи. CMU-LTI-03-177. Институт языковых технологий, Школа компьютерных наук, Университет Карнеги-Меллона.
  29. ^ Юлия Чжан. Генерация языков и синтез речи в диалогах для изучения языка, магистерская работа, раздел 5.6 на стр.
  30. ^ Уильям Ян Ван и Каллиррой Георгила. (2011). Автоматическое обнаружение неестественных словесных сегментов в синтезе речи с выбором единицы, IEEE ASRU 2011.
  31. ^ "Синхронно-синхронное перекрытие и сложение (PSOLA)". Архивировано из оригинал 22 февраля 2007 г.. Получено 2008-05-28.
  32. ^ Т. Дютуа, В. Пагель, Н. Пьерре, Ф. Батай, О. ван дер Врекен. Проект MBROLA: На пути к набору высококачественных синтезаторов речи для использования в некоммерческих целях. ICSLP Proceedings, 1996.
  33. ^ Муралишанкар, Р; Рамакришнан, А.Г .; Пратхибха, П. (2004). «Модификация шага с использованием DCT в исходном домене». Речевое общение. 42 (2): 143–154. Дои:10.1016 / j.specom.2003.05.001.
  34. ^ "Образование: чудо Бронкса". Время. 1974-04-01. ISSN  0040-781X. Получено 2019-05-28.
  35. ^ «1960 - Робот Руди - Майкл Фриман (американец)». cyberneticzoo.com. 2010-09-13. Получено 2019-05-23.[требуется проверка ]
  36. ^ LLC, New York Media (1979-07-30). New York Magazine. Нью-Йорк Медиа, ООО.
  37. ^ Футурист. Мировое общество будущего. 1978. С. 359, 360, 361.
  38. ^ Л. Ф. Ламель, Ж. Л. Говен, Б. Проутс, К. Бухье, Р. Бош. Генерация и синтез широковещательных сообщений, Труды Семинар ESCA-НАТО и применение речевых технологий, Сентябрь 1993 г.
  39. ^ Дартмутский колледж: Музыка и компьютеры В архиве 2011-06-08 на Wayback Machine, 1993.
  40. ^ Примеры включают Astro Blaster, Космическая ярость, и Звездный путь: Симулятор стратегических операций
  41. ^ Примеры включают Звездные войны, Fire Fox, Возвращение джедая, Road Runner, Империя наносит ответный удар, Индиана Джонс и Храм Судьбы, 720°, Перчатка, Gauntlet II, A.P.B., Разносчик газет, Дорожные бластеры, Воздаятели Часть II, Побег с планеты роботов-монстров.
  42. ^ Джон Холмс и Венди Холмс (2001). Синтез и распознавание речи (2-е изд.). CRC. ISBN  978-0-7484-0856-6.
  43. ^ а б Lucero, J.C .; Schoentgen, J .; Бехлау, М. (2013). «Физический синтез неупорядоченных голосов» (PDF). Интерспич 2013. Лион, Франция: Международная ассоциация речевой коммуникации. Получено 27 августа, 2015.
  44. ^ а б Энглерт, Марина; Мадацио, Глаусия; Гелов, Ингрид; Лусеро, Хорхе; Бехлау, Мара (2016). «Идентификация ошибок восприятия человеческого и синтезированного голосов». Журнал голоса. 30 (5): 639.e17–639.e23. Дои:10.1016 / j.jvoice.2015.07.017. PMID  26337775.
  45. ^ «Система синтеза речи на основе HMM». Hts.sp.nitech.ac.j. Получено 2012-02-22.
  46. ^ Remez, R .; Рубин, П .; Pisoni, D .; Каррелл, Т. (22 мая 1981 г.). «Восприятие речи без традиционных речевых сигналов» (PDF). Наука. 212 (4497): 947–949. Bibcode:1981Наука ... 212..947R. Дои:10.1126 / science.7233191. PMID  7233191. Архивировано из оригинал (PDF) на 2011-12-16. Получено 2011-12-14.
  47. ^ Сюй, Вэй-Нин (2018). «Иерархическое генеративное моделирование для управляемого синтеза речи». arXiv:1810.07217 [cs.CL ].
  48. ^ Хабиб, Раза (2019). "Полу-контролируемое генеративное моделирование для управляемого синтеза речи". arXiv:1910.01709 [cs.CL ].
  49. ^ Чунг, Ю-Ан (2018). «Полу-контролируемое обучение для повышения эффективности данных при сквозном синтезе речи». arXiv:1808.10128 [cs.CL ].
  50. ^ Рен, Йи (2019). «Практически неконтролируемый преобразование текста в речь и автоматическое распознавание речи». arXiv:1905.06791 [cs.CL ].
  51. ^ Цзя, Е (2018). «Перенос обучения от проверки говорящего на синтез речи с множеством говорящих». arXiv:1806.04558 [cs.CL ].
  52. ^ ван ден Оорд, Аарон (2018). «Параллельная сеть WaveNet: быстрый синтез речи с высокой точностью». arXiv:1711.10433 [cs.CL ].
  53. ^ Пренгер, Райан (2018). "WaveGlow: генерирующая сеть на основе потоков для синтеза речи". arXiv:1811.00002 [cs.SD ].
  54. ^ Ямамото, Рюичи (2019). «Parallel WaveGAN: модель быстрой генерации сигналов, основанная на генеративных состязательных сетях со спектрограммой с различным разрешением». arXiv:1910.11480 [eess.AS ].
  55. ^ «Синтез речи». Всемирная паутина.
  56. ^ "Blizzard Challenge". Festvox.org. Получено 2012-02-22.
  57. ^ «Улыбнись - и мир тебя услышит». Портсмутский университет. 9 января 2008 г. Архивировано с оригинал 17 мая 2008 г.
  58. ^ «Улыбайся - и мир услышит тебя, даже если ты спрячешься». Science Daily. Январь 2008 г.
  59. ^ Драгота, А. (2008). «Голосовое общение разных видов улыбок» (PDF). Речевое общение. 50 (4): 278–287. Дои:10.1016 / j.specom.2007.10.001. Архивировано из оригинал (PDF) на 2013-07-03.
  60. ^ Муралишанкар, Р .; Рамакришнан, А.Г .; Пратхибха, П. (февраль 2004 г.). «Модификация высоты звука с помощью DCT в исходной области». Речевое общение. 42 (2): 143–154. Дои:10.1016 / j.specom.2003.05.001.
  61. ^ Prathosh, A. P .; Рамакришнан, А.Г .; Анантападманабха, Т. В. (декабрь 2013 г.). «Извлечение эпохи на основе интегрированного остатка линейного предсказания с использованием индекса взрываемости». IEEE Trans. Аудио обработка речи. 21 (12): 2471–2480. Дои:10.1109 / TASL.2013.2273717. S2CID  10491251.
  62. ^ EE Times. "TI откажется от специализированных чипов для синтеза речи и передаст продукты компании Sensory. В архиве 2012-02-17 в WebCite. »14 июня 2001 г.
  63. ^ "Технические характеристики внешнего справочника обработчика речи 1400XL / 1450XL" (PDF). Получено 2012-02-22.
  64. ^ «Конечно, здорово вылезти из этой сумки!». folklore.org. Получено 2013-03-24.
  65. ^ «iPhone: настройка специальных возможностей (включая VoiceOver и Zoom)». Яблоко. Архивировано из оригинал 24 июня 2009 г.. Получено 2011-01-29.
  66. ^ «Амазонка Полли». Amazon Web Services, Inc. Получено 2020-04-28.
  67. ^ Шахтер, Джей; и другие. (1991). Справочное руководство по аппаратному обеспечению Amiga (3-е изд.). Эддисон-Уэсли Издательская компания, Inc. ISBN  978-0-201-56776-2.
  68. ^ Девитт, Франческо (30 июня 1995 г.). «Библиотека переводчика (многоязычная версия)». Архивировано из оригинал 26 февраля 2012 г.. Получено 9 апреля 2013.
  69. ^ «Учебники по специальным возможностям для Windows XP: Использование экранного диктора». Microsoft. 2011-01-29. Архивировано из оригинал 21 июня 2003 г.. Получено 2011-01-29.
  70. ^ «Как настроить и использовать преобразование текста в речь в Windows XP и Windows Vista». Microsoft. 2007-05-07. Получено 2010-02-17.
  71. ^ Жан-Мишель Триви (2009-09-23). «Введение в преобразование текста в речь в Android». Android-developers.blogspot.com. Получено 2010-02-17.
  72. ^ Андреас Бишофф, Pediaphon - Речевой интерфейс к бесплатной энциклопедии Википедии для мобильных телефонов, КПК и MP3-плееры, Труды 18-й Международной конференции по приложениям баз данных и экспертных систем, страницы: 575–579 ISBN  0-7695-2932-1, 2007
  73. ^ "gnuspeech". Gnu.org. Получено 2010-02-17.
  74. ^ «Смитсоновский проект истории синтеза речи (SSSHP) 1986–2002». Mindspring.com. Архивировано из оригинал на 2013-10-03. Получено 2010-02-17.
  75. ^ "WaveNet: Генеративная модель для Raw Audio". Deepmind.com. 2016-09-08. Получено 2017-05-24.
  76. ^ «Adobe Voco 'Photoshop-for-voice' вызывает беспокойство». BBC.com. BBC. 2016-11-07. Получено 2017-06-18.
  77. ^ Цзя, Е; Чжан, Ю; Вайс, Рон Дж. (2018-06-12), «Перенос обучения от проверки говорящего на синтез речи для нескольких говорящих», Достижения в системах обработки нейронной информации, 31: 4485–4495, arXiv:1806.04558
  78. ^ Arık, Sercan Ö .; Чен, Цзитун; Пэн, Кайнань; Пинг, Вэй; Чжоу, Яньци (2018), «Клонирование нейронного голоса с несколькими образцами», Достижения в системах обработки нейронной информации, 31, arXiv:1802.06006
  79. ^ «Фальшивые голоса» помогают кибер-преступникам красть деньги'". bbc.com. BBC. 2019-07-08. Получено 2019-09-11.
  80. ^ Дрю, Харвелл (2019-09-04). «Сначала искусственный интеллект: программное обеспечение для имитации голоса, по сообщениям, использовалось в крупной краже». Washingtonpost.com. Вашингтон Пост. Получено 2019-09-08.
  81. ^ Тиз, Юстус (2016). «Face2Face: захват лица в реальном времени и воспроизведение видео в формате RGB». Proc. Компьютерное зрение и распознавание образов (CVPR), IEEE. Получено 2016-06-18.
  82. ^ Суваджанакорн, Супасорн; Зейтц, Стивен; Кемельмахер-Шлизерман, Ира (2017), Синтезирование Обамы: изучение синхронизации губ по аудио, Вашингтонский университет, получено 2018-03-02
  83. ^ Нг, Эндрю (01.04.2020). «Клонирование голоса для масс». deeplearning.ai. Партия. Получено 2020-04-02.
  84. ^ "15.ai". пятнадцать.аи. 2020-03-02. Получено 2020-04-02.
  85. ^ «Пинки Пай добавлена ​​в 15.ai». equestriadaily.com. Эквестрия Дейли. 2020-04-02. Получено 2020-04-02.
  86. ^ «Анонсировано программное обеспечение для синтеза речи в аниме». Сеть новостей аниме. 2007-05-02. Получено 2010-02-17.
  87. ^ «В Японии предлагается услуга синтезатора речи Code Geass». Animenewsnetwork.com. 2008-09-09. Получено 2010-02-17.

внешние ссылки