ТИМИТ - TIMIT
ТИМИТ представляет собой корпус фонематически и лексически транскрибируемой речи Американский английский носители разных полов и диалектов. Каждый записанный элемент был обозначен во времени.
TIMIT был разработан для расширения акустико-фонетических знаний и систем автоматического распознавания речи. По заказу DARPA и дизайн корпуса был совместным усилием Массачусетский Институт Технологий, SRI International, и Инструменты Техаса (TI). Речь была записана в TI, расшифрована в MIT, проверена и подготовлена к публикации Национальный институт стандартов и технологий (NIST).[1] Существует также версия телефонной полосы пропускания под названием NTIMIT (Network TIMIT).
TIMIT и NTIMIT не доступны в свободном доступе - либо членство в Консорциум лингвистических данных, или денежный платеж, требуется для доступа к набору данных.
История
Телефонный корпус TIMIT был первой попыткой создать базу данных с образцами речи.[2] Он был опубликован в 1988 г. CD-ROM и состоит всего из 10 предложений на говорящего. Каждый говорящий прочитал два диалектных предложения, а также еще 7 предложений, выбранных из большего набора. [3] Каждое предложение длится 30 секунд и произносится 630 разными ораторами.[4] Это была первая заметная попытка создания и распространения речевой корпус Общая стоимость проекта составила 1,5 миллиона долларов США.[5]
Полное название проекта - DARPA-TIMIT Acoustic-Phonetic Continuous Speech Corpus.[6] аббревиатура TIMIT означает Texas Instruments / Массачусетский технологический институт. Основная причина создания корпуса телефонной речи - обучение распознавание речи программного обеспечения. в Blizzard Challenge, другое программное обеспечение обязано преобразовывать аудиозаписи в текстовые данные, и корпус TIMIT использовался в качестве стандартизированной базовой линии.[7]
Сравнение методов машинного обучения
Изучать | Метод | Точность (%) |
---|---|---|
Цао и Фань[8] | КИРФ | 93.1 |
Bird et al.[9] | DEvo MLP | 92.85 |
Цао и Фань[8] | NPCD / MPLSR | 92.8 |
Цао и Фань[8] | NPCD / PCA | 92.1 |
Цао и Фань[8] | МПЛСР | 91.1 |
Цао и Фань[8] | КПК / Ридж | 91.1 |
Ли и Госал | UMP | 89.25 |
Ли и Госал | MLO | 85.25 |
Ли и Госал | QDA | 83.75 |
Ager et al. | GMM | 81.5 |
Ли и Ю[10] | FSDA | 81.5 |
Ли и Ю[10] | FSVM | 78 |
Смотрите также
Рекомендации
- ^ Фишер, Уильям М .; Доддингтон, Джордж Р .; Гуди-Маршалл, Кэтлин М. (1986). База данных исследования распознавания речи DARPA: спецификации и статус. С. 93–99.
- ^ Моралес, Николас и Техедор, Хавьер и Гарридо, Хавьер и Колас, Хосе и Толедано, Доротео Т. (2008). «НТЦ-ТИМИТ Генерация одноканального телефонного корпуса». Труды Шестых международных языковых ресурсов и оценки (LREC'08): 391–395.CS1 maint: несколько имен: список авторов (связь)
- ^ Лори Ф. Ламель и Роберт Х. Кассель и Стефани Сенефф (1986). Разработка речевой базы данных: дизайн и анализ акустико-фонетического корпуса (Технический отчет). DARPA (SAIC-86/1546).
- ^ Джон С. Гарофоло и Лори Ф. Ламель, Уильям М. Фишер и Джонатан Г. Фискус, Дэвид С. Паллетт и Нэнси Л. Дальгрен (1993). DARPA TIMIT: (Технический отчет). Национальный институт стандартов и технологий. Дои:10.6028 / нист.ир.4930.
- ^ Наттанун Чанчаочай, Кристофер Сиери, Джафет Дебрах и Хунвэй Дин, Юэ Цзян, Сиши Ляо, Марк Либерман, Джонатан Райт, Цзяхонг Юань, Джухонг Чжан и Юцин Чжан (2018). GlobalTIMIT: акустико-фонетические наборы данных для языков мира. Interspeech 2018. ISCA. Дои:10.21437 / interspeech.2018-1185.
- ^ Бауэр, Патрик и Шелер, Дэвид и Фингшайдт, Тим (2010). WTIMIT: корпус речи TIMIT, передаваемый по широкополосной мобильной сети 3G AMR. LREC.CS1 maint: несколько имен: список авторов (связь)
- ^ Савада, Кей и Асаи, Чиаки и Хашимото, Кей и Оура, Кейитиро и Токуда, Кейчи (2016). Система преобразования текста в речь NITech для конкурса Blizzard Challenge 2016. Мастерская Blizzard Challenge 2016.CS1 maint: несколько имен: список авторов (связь)
- ^ а б c d е Цао, Цзиго; Вентилятор, Гуанчже (2010). Классификация сигналов с использованием случайного леса с ядрами. IEEE. Дои:10.1109 / aict.2010.81. ISBN 978-1-4244-6748-8.
- ^ Bird, Jordan J .; Ваннер, Элизабет; Экарт, Анико; Фариа, Диего Р. (2020). «Оптимизация фонетического распознавания речи с помощью многоцелевых эволюционных алгоритмов». Экспертные системы с приложениями. Elsevier BV. 153: 113402. Дои:10.1016 / j.eswa.2020.113402. ISSN 0957-4174.
- ^ а б Ли, Бин; Ю, Цинчжао (2008). «Классификация функциональных данных: подход сегментации». Вычислительная статистика и анализ данных. Elsevier BV. 52 (10): 4790–4800. Дои:10.1016 / j.csda.2008.03.024. ISSN 0167-9473.