Список детских речевых корпусов - Википедия - List of childrens speech corpora
А детский речевой корпус это речевой корпус документирование первого языка овладение языком. Такие базы данных используются при разработке компьютерные системы изучения языка и характеристика детская речь в разном возрасте.[1] Речь детей зависит не только от языка, но и от региона в пределах языка. Он также может отличаться для определенных групп, таких как дети-аутисты, особенно если учитывать эмоции. Таким образом, для разных групп населения необходимы разные базы данных. Корпуса доступны для американского и британского английского, а также для многих других европейских языков.[1][2][3]
Обзор детских речевых корпусов
В приведенной ниже таблице возрастной диапазон можно описать с точки зрения школьных оценок. «К» обозначает «детский сад», а «G» обозначает «класс». Например, возрастной диапазон «K - G10» относится к говорящим от детского сада до 10 класса.
Эта таблица основана на документе конференции Interspeech, 2016 г.[4] Эта онлайн-статья представляет собой интерактивную таблицу для читателей и место, где хранится информация о детских речевых корпусах, которая может постоянно обновляться сообществом исследователей речи.
Корпус | Автор | Языки | # Компьютерные колонки | # Утт. | Продолжительность | Возрастной диапазон | Дата | Замечания |
---|---|---|---|---|---|---|---|---|
Обучение боулдерингу - MyST Corpus (v0.4.0) [5] | Cole et al.[6] | английский | 1371 | 228,874 | ~ 393ч | G3 - G5 | 2019 | диалоговое взаимодействие студента и виртуального репетитора на научные темы; обычно продолжительность сеанса 20-40 минут (настенные часы); было переписано примерно 49% высказываний, и еще больше записано. добровольцы поощряются. доступен бесплатно для исследования; квартира 10 тысяч долларов для коммерческого использования. |
CMU Kids Corpus [7] | Эскенази | английский | 24М, 52Ф | 5180 | 6 - 11 | 1997 | ||
Детский речевой корпус CSLU [8] | Шобаки | английский | 1100 | 1017 | K - G10 | 2007 | ||
Детский речевой корпус PF-STAR [9][10] | Рассел | Английский, | 158 | ~ 14,5 ч | 4 - 14 | 2006 | транскрипции на уровне слов | |
ВЫЗОВ-ТА [11] | Rayner | Немецкий | 5000 | 2014 | ||||
TBALL [12] | Каземгаде | английский | 256 | 5000 | 40ч | К - G4 | 2005 | частично неродная речь |
CASS_CHILD [13] | Гао | Мандарин | 23 | 1 - 4 | 2012 | фонетические транскрипции | ||
CU Детский корпус для чтения и подсказки речи [14] | Hagen | английский | 663 | ~100 | К - G5 | 2001 | состоит из отдельных слов, предложений и коротких спонтанных рассказов; транскрипции на уровне слов | |
CU Story Corpus [14] | Hagen | английский | 106 | 5000 | 40ч | G3 - G5 | 2003 | состоит из сюжетных подсказок и спонтанного устного изложения материала; транскрипции на уровне слов |
Providence Corpus [15] | Демут | английский | 6 | 363ч | 1 - 3 | 2006 | спонтанные речевые взаимодействия матери и ребенка; широкая фонетическая транскрипция | |
Lyon Corpus [16] | Демут | Французский | 4 | 185ч | 1 - 3 | 2007 | спонтанное речевое взаимодействие матери и ребенка; широкая фонетическая транскрипция | |
Demuth Sesotho Corpus [17] | Демут | Сесото | 4 | ~13250 | 98ч | 2 - 4 | 1992 | спонтанное речевое взаимодействие семья / сверстники; морфологически маркированный |
CHIEDE [18] | Гарроте | испанский | 59 | 15444 | ~ 8ч | 2008 | спонтанная беседа, личные интервью, взаимодействие взрослого и ребенка; орфографические транскрипции; автоматическая фонологическая транскрипция | |
TIDIGITS [19] | Леонард | английский | 326 (101 ребенок) | 6 - 15 | 1993 | сочетание взрослых и детей | ||
FAU Aibo Emotion Corpus | Steidl | Немецкий | 51 | 9ч | 10 - 13 | аннотированные людьми с 11 категориями эмоций | ||
Шведский NICE Corpus [20] | Колокол | 5580 | 8 - 15 | 2005 | состоит из взаимодействий ребенок-машина и взрослый-ребенок; орфографические транскрипции | |||
SingaKids-Мандарин [4] | Чен | Мандарин | 255 | 79,843 | 125 ч | 7 - 12 | 2016 | текстовые и телефонные транскрипции; аннотированные людьми рейтинги квалификации |
CFSC[21] | Паскуаль | Филиппинский | 57 | ~ 8ч | 6-11 | 2012 | состоит из детской читаемой речи; содержит как хорошее произношение, так и ошибки чтения; частично транскрибируется на уровне слов и фонем |
Смотрите также
Рекомендации
- ^ а б Хабернал, Иван; Вацлав, Матушек (2013). Текст, речь и диалог: 16-я Международная конференция, TSD 2013, Пльзень, Чешская Республика, 1-5 сентября 2013 г., Труды. Springer. п. 545. ISBN 9783642405853. Получено 11 декабря 2015.
- ^ Нойштейн, Эми (2014). Речь и автоматы в здравоохранении. Вальтер де Грюйтер. С. 225–226. ISBN 9781614515159. Получено 11 декабря 2015.
- ^ Ронжин Андрей; Потапова, Родмонга; Факотакис, Никос (2015). Речь и компьютер: 17-я Международная конференция, SPECOM 2015, Афины, Греция, 20-24 сентября 2015 г., Материалы. Springer. С. 144–145. ISBN 9783319231327. Получено 11 декабря 2015.
- ^ а б Нэнси Ф. Чен, Ронг Тонг, Даррен Ви, Пэйсуан Ли, Бин Ма и Хайчжоу Ли. SingaKids-Mandarin: Речевой корпус сингапурских детей, говорящих на китайском языке, в Proc. компании Interspeech, 2016.
- ^ "MyST Corpus | Boulder Learning inc". Получено 2019-07-17.
- ^ "Мой научный руководитель и MyST Corpus". ResearchGate. Получено 2019-07-17.
- ^ Максин Эскенази, Джек Мостоу и Дэвид Графф. CMU Kids Corpus LDC97S63. Интернет-загрузка. Филадельфия: Консорциум лингвистических данных, 1997.
- ^ Халдун Шобаки, Джон-Пол Хосом и Рональд Коул. CSLU: Детская речь Версия 1.1 LDC2007S18. Интернет-загрузка. Филадельфия: Консорциум лингвистических данных, 2007.
- ^ Мартин Рассел. Корпус британской детской речи PF-STAR. Speech Ark Limited. 2006 г.
- ^ Антон Батлинер, Матс Бломберг, Шона Д'Арси, Даниэль Элениус, Диего Джулиани, Маттео Героса, Кристиан Хакер, Мартин Рассел, Стефан Стейдл, Майкл Вонг. Детский речевой корпус PF STAR. В Proc. Интерспич, 2005.
- ^ Мэнни Райнер, Никос Цуракис, Клаудиа Баур, Пьеретта Буйон, Йоханна Герлах. CALL-SLT: система разговорного вызова, основанная на грамматике и распознавании речи. В лингвистических проблемах языковой технологии, т. 10, выпуск 2. 2014.
- ^ Абэ Каземзаде, Хонг Ю, Маркус Исели, Барбара Джонс, Сяодун Цуй, Маргарет Херитэдж, Патти Прайс, Элейн Андерсон, Шрикант Нараянан и Абир Алван. Сбор данных TBALL: создание речевого корпуса маленьких детей, в Proc. Интерспич, 2005.
- ^ Цзюнь Гао, Айджун Ли и Цзыю Сюн. Мультимедийный детский речевой корпус китайского языка: CASS_CHILD в Международной конференции по речевым базам данных и оценкам (Oriental COCOSDA), 2012.
- ^ а б Андреас Хаген, Брайан Пеллом и Рональд Коул. Распознавание детской речи с применением в интерактивных книгах и наставниках в семинаре IEEE по автоматическому распознаванию и пониманию речи, 2003 г.
- ^ Демут, К., Калбертсон, Дж. И Альтер, Дж. 2006. Минимальность слов, эпентез и кодовое лицензирование при освоении английского языка. Язык и речь, 49, 137-174.
- ^ Демут, К. и А. Трембли. 2007. Просодически обусловленная изменчивость детерминант французских детерминаторов. Журнал детской речи, 34, 1-29.
- ^ Демут, К. 1992. Приобретение Sesotho. В Д. Слобине (ред.), Кросс-лингвистическое исследование овладения языком, том 3, 557-638. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс.
- ^ Марта Гарроте. CHIEDE: Корпус испанского языка, созданный самопроизвольными детьми. Кандидат наук. диссертация, Автономный университет Мадрида, Испания. 2008 г.
- ^ Р. Гэри Леонард и Джордж Доддингтон. TIDIGITS LDC93S10. Интернет-загрузка. Филадельфия: Консорциум лингвистических данных, 1993.
- ^ Линда Белл, Йохан Бойс, Йоаким Густафсон, Маттиас Хелднер, Андерс Линдстрем и Матс Вирен. Шведский корпус NICE - разговорные диалоги между детьми и воплощенными персонажами в сценарии компьютерной игры, в Proc. Eurospeech, 2005.
- ^ Pascual, R.M .; Гевара, Р. К. Л. (ноябрь 2012 г.). «Разработка детского корпуса филиппинской речи для применения в автоматическом обнаружении ошибок и затруднений при чтении». Конференция TENCON 2012 IEEE Region 10: 1–6. Дои:10.1109 / TENCON.2012.6412235. ISBN 978-1-4673-4824-9.