ТИМИТ - TIMIT

ТИМИТ представляет собой корпус фонематически и лексически транскрибируемой речи Американский английский носители разных полов и диалектов. Каждый записанный элемент был обозначен во времени.

TIMIT был разработан для расширения акустико-фонетических знаний и систем автоматического распознавания речи. По заказу DARPA и дизайн корпуса был совместным усилием Массачусетский Институт Технологий, SRI International, и Инструменты Техаса (TI). Речь была записана в TI, расшифрована в MIT, проверена и подготовлена ​​к публикации Национальный институт стандартов и технологий (NIST).[1] Существует также версия телефонной полосы пропускания под названием NTIMIT (Network TIMIT).

TIMIT и NTIMIT не доступны в свободном доступе - либо членство в Консорциум лингвистических данных, или денежный платеж, требуется для доступа к набору данных.

История

Телефонный корпус TIMIT был первой попыткой создать базу данных с образцами речи.[2] Он был опубликован в 1988 г. CD-ROM и состоит всего из 10 предложений на говорящего. Каждый говорящий прочитал два диалектных предложения, а также еще 7 предложений, выбранных из большего набора. [3] Каждое предложение длится 30 секунд и произносится 630 разными ораторами.[4] Это была первая заметная попытка создания и распространения речевой корпус Общая стоимость проекта составила 1,5 миллиона долларов США.[5]

Полное название проекта - DARPA-TIMIT Acoustic-Phonetic Continuous Speech Corpus.[6] аббревиатура TIMIT означает Texas Instruments / Массачусетский технологический институт. Основная причина создания корпуса телефонной речи - обучение распознавание речи программного обеспечения. в Blizzard Challenge, другое программное обеспечение обязано преобразовывать аудиозаписи в текстовые данные, и корпус TIMIT использовался в качестве стандартизированной базовой линии.[7]

Сравнение методов машинного обучения

Сравнение методов распознавания фонем на наборе данных TIMIT
ИзучатьМетодТочность (%)
Цао и Фань[8]КИРФ93.1
Bird et al.[9]DEvo MLP92.85
Цао и Фань[8]NPCD / MPLSR92.8
Цао и Фань[8]NPCD / PCA92.1
Цао и Фань[8]МПЛСР91.1
Цао и Фань[8]КПК / Ридж91.1
Ли и ГосалUMP89.25
Ли и ГосалMLO85.25
Ли и ГосалQDA83.75
Ager et al.GMM81.5
Ли и Ю[10]FSDA81.5
Ли и Ю[10]FSVM78

Смотрите также

Рекомендации

  1. ^ Фишер, Уильям М .; Доддингтон, Джордж Р .; Гуди-Маршалл, Кэтлин М. (1986). База данных исследования распознавания речи DARPA: спецификации и статус. С. 93–99.
  2. ^ Моралес, Николас и Техедор, Хавьер и Гарридо, Хавьер и Колас, Хосе и Толедано, Доротео Т. (2008). «НТЦ-ТИМИТ Генерация одноканального телефонного корпуса». Труды Шестых международных языковых ресурсов и оценки (LREC'08): 391–395.CS1 maint: несколько имен: список авторов (связь)
  3. ^ Лори Ф. Ламель и Роберт Х. Кассель и Стефани Сенефф (1986). Разработка речевой базы данных: дизайн и анализ акустико-фонетического корпуса (Технический отчет). DARPA (SAIC-86/1546).
  4. ^ Джон С. Гарофоло и Лори Ф. Ламель, Уильям М. Фишер и Джонатан Г. Фискус, Дэвид С. Паллетт и Нэнси Л. Дальгрен (1993). DARPA TIMIT: (Технический отчет). Национальный институт стандартов и технологий. Дои:10.6028 / нист.ир.4930.
  5. ^ Наттанун Чанчаочай, Кристофер Сиери, Джафет Дебрах и Хунвэй Дин, Юэ Цзян, Сиши Ляо, Марк Либерман, Джонатан Райт, Цзяхонг Юань, Джухонг Чжан и Юцин Чжан (2018). GlobalTIMIT: акустико-фонетические наборы данных для языков мира. Interspeech 2018. ISCA. Дои:10.21437 / interspeech.2018-1185.
  6. ^ Бауэр, Патрик и Шелер, Дэвид и Фингшайдт, Тим (2010). WTIMIT: корпус речи TIMIT, передаваемый по широкополосной мобильной сети 3G AMR. LREC.CS1 maint: несколько имен: список авторов (связь)
  7. ^ Савада, Кей и Асаи, Чиаки и Хашимото, Кей и Оура, Кейитиро и Токуда, Кейчи (2016). Система преобразования текста в речь NITech для конкурса Blizzard Challenge 2016. Мастерская Blizzard Challenge 2016.CS1 maint: несколько имен: список авторов (связь)
  8. ^ а б c d е Цао, Цзиго; Вентилятор, Гуанчже (2010). Классификация сигналов с использованием случайного леса с ядрами. IEEE. Дои:10.1109 / aict.2010.81. ISBN  978-1-4244-6748-8.
  9. ^ Bird, Jordan J .; Ваннер, Элизабет; Экарт, Анико; Фариа, Диего Р. (2020). «Оптимизация фонетического распознавания речи с помощью многоцелевых эволюционных алгоритмов». Экспертные системы с приложениями. Elsevier BV. 153: 113402. Дои:10.1016 / j.eswa.2020.113402. ISSN  0957-4174.
  10. ^ а б Ли, Бин; Ю, Цинчжао (2008). «Классификация функциональных данных: подход сегментации». Вычислительная статистика и анализ данных. Elsevier BV. 52 (10): 4790–4800. Дои:10.1016 / j.csda.2008.03.024. ISSN  0167-9473.

внешняя ссылка