МУШРА - MUSHRA

МУШРА означает Несколько стимулов со скрытой ссылкой и якорем и представляет собой методику проведения тест прослушивания кодека для оценки воспринимаемого качества продукции с потерями алгоритмы сжатия звука. Это определяется МСЭ-R рекомендация BS.1534-3.[1] Методология MUSHRA рекомендуется для оценки «среднего качества звука». При очень небольших нарушениях звука Рекомендация МСЭ-R BS.1116-3 Вместо этого рекомендуется (ABC / HR).

Главное преимущество перед средняя оценка мнения (MOS) (которая служит аналогичной цели) заключается в том, что MUSHRA требует меньшего числа участников для получения статистически значимых результатов.[нужна цитата ] Это связано с тем, что все кодеки представлены одновременно в одних и тех же образцах, так что парный t-тест или повторные меры дисперсионный анализ может использоваться для статистического анализа. Кроме того, шкала 0–100, используемая MUSHRA, позволяет оценивать очень небольшие различия.

В MUSHRA слушателю предоставляется ссылка (помеченная как таковая), определенное количество тестовых образцов, скрытая версия ссылки и один или несколько якорей. В рекомендации указывается, что в тестовые сигналы следует включать якорь низкого и среднего диапазона. Обычно это низкочастотный эталон с частотой 7 кГц и 3,5 кГц. Якоря предназначены для калибровки шкалы, чтобы незначительные артефакты не подвергались чрезмерному наказанию. Это особенно важно при сравнении или объединении результатов из разных лабораторий.

Поведение слушателя

Оба, тесты MUSHRA и ITU BS.1116[2] вызовите обученных слушателей-экспертов, которые знают, как звучат типичные артефакты и где они могут возникнуть. Слушатели-эксперты также лучше усваивают шкалу оценок, что приводит к большему количеству повторяемые результаты чем с неподготовленными слушателями. Таким образом, с обученными слушателями требуется меньше слушателей для достижения статистически значимые результаты.

Предполагается, что предпочтения опытных слушателей и наивных слушателей схожи, и поэтому результаты экспертных слушателей также являются предсказательными для потребителей. В соответствии с этим предположением Schinkel-Bielefeld et al.[3] не обнаружил различий в порядке ранжирования между опытными слушателями и неподготовленными слушателями при использовании тестовых сигналов, содержащих только тембр и отсутствие пространственных артефактов. Однако Рамси и др.[4] показали, что для сигналов, содержащих пространственные артефакты, опытные слушатели взвешивают пространственные артефакты немного сильнее, чем неподготовленные слушатели, которые в первую очередь фокусируются на тембровых артефактах.

В дополнение к этому, было показано, что опытные слушатели более широко используют опцию для многократного прослушивания меньших участков тестируемых сигналов и выполнения большего количества сравнений между тестируемыми сигналами и эталонными.[3] В отличие от наивного слушателя, который составляет рейтинг предпочтений, опытный слушатель, таким образом, производит оценку качества звука, оценивая различия между тестируемым сигналом и несжатым оригиналом, что и является реальной целью MUSHRA-теста.

До или после скрининга

В руководстве MUSHRA упоминается несколько возможностей оценки надежности слушателя.

Самый простой и распространенный - это дисквалификация слушателей, которые оценивают скрытую ссылку ниже 90 баллов MUSHRA для более чем 15 процентов всех тестовых заданий. Скрытая ссылка должна быть оценена в 100 баллов MUSHRA, так что это, очевидно, ошибка. Хотя может случиться так, что скрытый эталонный сигнал и высококачественный сигнал перепутаны, рейтинг ниже 90 следует давать только тогда, когда слушатель уверен, что номинальный сигнал отличается от исходного эталонного сигнала.

Другая возможность оценить работу слушателя - это eGauge,[5] структура, основанная на дисперсионном анализе. Он вычисляет соглашение, повторяемость и различимость, хотя только два последних рекомендуются для предварительного или последующего обследования. Соглашение анализирует, насколько слушатель согласен с остальными слушателями. Повторяемость смотрит на дисперсию при повторной оценке того же тестового сигнала по сравнению с дисперсией других тестовых сигналов и различимость анализирует, могут ли слушатели различать тестовые сигналы в разных условиях. Поскольку eGauge требует прослушивания каждого тестового сигнала дважды, применить это требует больше усилий, чем отправлять экранных слушателей на основе рейтингов скрытых ссылок. Однако, если слушатель доказал, что является надежным слушателем с помощью eGauge, он или она также может считаться надежным слушателем для будущих тестов прослушивания, при условии, что характер теста не изменится; Надежный слушатель для теста прослушивания стереозвука не обязательно одинаково хорошо воспринимает артефакты в тестовых элементах формата 5.1 или 22.2.

Тестовые задания

Важно выбрать критические тестовые задания; элементы, которые сложно кодировать и которые могут вызывать артефакты. При этом образцы должны быть экологическими; они должны быть репрезентативными для вещательного материала, а не некоторых синтетических сигналов, специально разработанных так, чтобы их было трудно кодировать. Метод выбора критического материала представлен Ekeroot et al. которые предлагают ранжирование по процедуре исключения.[6] Хотя это хороший способ выбрать наиболее важные элементы теста, он не гарантирует включение множества элементов теста, подверженных различным артефактам.

В идеале характер элемента теста MUSHRA не должен слишком сильно меняться в течение всего срока действия этого элемента. В противном случае слушателю может быть сложно определить рейтинг, если разные части элементов отображают разные или более сильные артефакты, чем другие.[7] Часто более короткие элементы приводят к меньшей изменчивости, чем более длинные, поскольку они более стационарны.[8] Однако даже при попытке выбрать стационарные объекты экологически значимые стимулы очень часто будут иметь участки, которые несколько более важны, чем остальная часть сигнала. Таким образом, слушатели, которые сосредотачиваются на разных частях сигнала, могут оценивать его по-разному. В этом случае более критичные слушатели, кажется, лучше распознают наиболее критические области стимула, чем менее критичные слушатели.[9]

Язык тестовых заданий

В тестах ITU-T P.800[10] которые обычно используются для оценки кодеков качества телефона, тестируемые речевые элементы всегда должны быть на родном языке слушателей, это не обязательно в тестах MUSHRA. Исследование с участием слушателей китайского и немецкого языков не обнаружило значительной разницы между оценкой заданий теста по иностранному и родному языкам. Однако слушателям нужно больше времени и больше сравнивать при оценке заданий на иностранном языке.[11] Таким образом, похоже, что слушатели компенсируют любые трудности, которые могут возникнуть при оценке предметов на иностранном языке. Такая компенсация невозможна в тестах ACR ITU-T P.800, где элементы слышны только один раз и сравнение с эталоном невозможно. Там задания на иностранном языке оцениваются как более низкого качества, когда уровень владения языком слушателей низкий.[12]

использованная литература

  1. ^ Рекомендация ITU-R BS.1534
  2. ^ МСЭ-R BS.1116 (февраль 2015 г.). «Методы субъективной оценки небольших нарушений в аудиосистемах». Цитировать журнал требует | журнал = (Помогите)
  3. ^ а б Шинкель-Билефельд Н., Лотце Н. и Нагель Ф. (май 2013 г.). «Оценка качества звука опытными и неопытными слушателями». Журнал акустического общества Америки. 133 (5): 3246. Дои:10.1121/1.4805210.CS1 maint: несколько имен: список авторов (ссылка на сайт)
  4. ^ Рамси, Фрэнсис; Зелински, Славомир; Касье, Рафаэль; Беч, Сорен (31 мая 2005 г.). «Взаимосвязь между оценками опытных слушателей качества многоканального звука и предпочтениями наивных слушателей». Журнал акустического общества Америки. 117 (6): 3832–3840. Дои:10.1121/1.1904305. ISSN  0001-4966.
  5. ^ Гаэтан, Лорхо; Гийом, Ле Рей; Ник, Захаров (13.06.2010). "eGauge - показатель экспертных знаний оценщика при оценке качества звука". Труды Общества инженеров аудио. 38-я Международная конференция по оценке качества звука.
  6. ^ Йонас, Экерут; Ян, Берг; Арне, Нюкянен (25 апреля 2014 г.). «Критичность звуковых стимулов для тестов на прослушивание - длительность прослушивания во время задания на ранжирование». 136-й съезд Общества звукорежиссеров.
  7. ^ Макс, Нойендорф; Фредерик, Нагель (2011-10-19). «Исследовательские исследования перцепционной стационарности в тесте на слушание - Часть I: сигналы реального мира из пользовательских тестов на слушание». Цитировать журнал требует | журнал = (Помогите)
  8. ^ Фредерик, Нагель; Макс, Нойендорф (2011-10-19). "Исследовательские исследования перцепционной стационарности в тесте на слушание - Часть II: Синтетические сигналы с изменяющимися во времени артефактами". Цитировать журнал требует | журнал = (Помогите)
  9. ^ Надя, Шинкель-Билефельд (11.05.2017). «Оценка качества звука в тестах MUSHRA - Влияние между настройкой петли и рейтингом слушателей». 142-й съезд Общества звукорежиссеров.
  10. ^ ITU-T P.800 (август 1996 г.). «P.800: Методы субъективного определения качества передачи». Цитировать журнал требует | журнал = (Помогите)
  11. ^ Надя, Шинкель-Билефельд; Чжан, Цзяньдун; Цинь, Или; Катарина, Лещановский, Анна; Фу, Шаньшань (2017-05-11). «Труднее ли воспринимать артефакт кодирования в предметах на иностранном языке? - Исследование с участием слушателей, говорящих на китайском и немецком языках». Цитировать журнал требует | журнал = (Помогите)
  12. ^ Блашкова, Любица; Голуб, янв (2008). «Как неродные слушатели воспринимают качество передаваемого голоса?» (PDF). Связь. 10.4: 11–15.

внешние ссылки