Сжатое восприятие в речевых сигналах - Compressed sensing in speech signals

Эта статья о Сжатое восприятие речевых сигналов.

В коммуникационные технологии, техника сжатое зондирование (CS) может применяться к обработка речевых сигналов при определенных условиях. В частности, CD можно использовать для восстановления разреженный вектор из меньшего количества измерений при условии, что сигнал может быть представлен в виде разреженных домен. «Разреженная область» относится к области, в которой только несколько измерений имеют ненулевые значения.[1]

Теория

Предположим сигнал могут быть представлены в домене, где только коэффициенты снаружи (куда ) отличны от нуля, то сигнал называется разреженным в этой области. вектор может использоваться для построения исходного сигнала, если известен разреженный домен сигнала. CS может применяться к речевому сигналу, только если известна разреженная область речевого сигнала.

Рассмотрим речевой сигнал , который может быть представлен в домене такой, что , где речевой сигнал , матрица словаря и разреженный вектор коэффициентов . Этот речевой сигнал считается разреженным в области , если количество значащих (ненулевых) коэффициентов в разреженном векторе является , куда .

Наблюдаемый сигнал имеет измерение . Чтобы уменьшить сложность решения с помощью CS речевой сигнал наблюдается с помощью матрицы измерений такой, что

 

 

 

 

(1)


куда , и матрица измерений такой, что .

Проблема разреженной декомпозиции для ур. 1 решается стандартно минимизация[2] в качестве

 

 

 

 

(2)

Если матрица измерений удовлетворяет ограниченное изометрическое свойство (RIP) и несовместим с матрица словаря .[3] тогда восстановленный сигнал намного ближе к исходному речевому сигналу.

Различные типы матриц измерения, такие как случайные матрицы может использоваться для речевых сигналов.[4][5]Оценка разреженности речевого сигнала представляет собой проблему, поскольку речевой сигнал сильно меняется во времени, и, следовательно, разреженность речевого сигнала также сильно изменяется во времени. Если разреженность речевого сигнала может быть рассчитана с течением времени без особых сложностей, это будет лучшим вариантом. Если это невозможно, то для данного речевого сигнала можно рассмотреть наихудший сценарий разреженности.

Разреженный вектор () для данного речевого сигнала восстанавливается по как можно меньшему количеству измерений () с помощью минимизация.[2] Затем исходный речевой сигнал восстанавливается из вычисленного разреженного вектора используя фиксированную матрицу словаря как в качестве = .[6]

Оценка как словарной матрицы, так и разреженного вектора из случайный только измерения были сделаны итеративный лы.[7]Речевой сигнал, восстановленный из оцененного разреженного вектора и матрицы словаря, намного ближе к исходному сигналу. Были разработаны некоторые более итерационные подходы для вычисления как матрицы словаря, так и речевого сигнала на основе только случайных измерений речевого сигнала.[8]

Приложения

Применение структурированной разреженности для локализации-разделения совместной речи в реверберационный акустика была исследована для распознавания многосторонней речи.[9] Дальнейшие применения концепции разреженности еще предстоит изучить в области обработка речи. Идея применения CS к речевым сигналам состоит в том, чтобы сформулировать алгоритмы или методы, использующие только эти случайные измерения () для выполнения различных форм обработки на основе приложений, таких как распознавание говорящего и улучшение речи.[10]

Рекомендации

  1. ^ Видьясагар, М. (2019-12-03). Введение в сжатое зондирование. СИАМ. ISBN  978-1-61197-612-0.
  2. ^ а б Донохо Д. (2006). «Сжатое зондирование». IEEE Transactions по теории информации. 52 (4): 1289–1306. CiteSeerX  10.1.1.212.6447. Дои:10.1109 / TIT.2006.871582. PMID  17969013. S2CID  206737254.
  3. ^ Candes E .; Romberg J .; Тао Т. (2006). «Принципы надежной неопределенности: точное восстановление сигнала на основе очень неполной частотной информации» (PDF). IEEE Transactions по теории информации. 52 (2): 489. arXiv:математика / 0409186. Дои:10.1109 / TIT.2005.862083. S2CID  7033413.
  4. ^ Zhang G .; Jiao S .; Сюй X .; Ван Л. (2010). «Сжатое зондирование и реконструкция с матрицами Бернулли». Международная конференция IEEE по информации и автоматизации 2010 г.: 455–460. Дои:10.1109 / ICINFA.2010.5512379. ISBN  978-1-4244-5701-4. S2CID  15886491.
  5. ^ Ли К .; Ling C .; Ган Л. (2011). «Детерминированные матрицы сжатого восприятия: где Теплиц встречает Голея». 2011 Международная конференция IEEE по акустике, обработке речи и сигналов (ICASSP): 3748–3751. Дои:10.1109 / ICASSP.2011.5947166. ISBN  978-1-4577-0538-0. S2CID  12289159.
  6. ^ Christensen M .; Stergaard J .; Дженсен С. (2009). «О сжатых измерениях и их применении к речевым и звуковым сигналам». Протоколы сорок третьей конференции Asilomar по сигналам, системам и компьютерам, 2009 г.: 356–360. Дои:10.1109 / ACSSC.2009.5469828. ISBN  978-1-4244-5825-7. S2CID  15151303.
  7. ^ Raj C. S .; Шринивас Т. В. (2011). «Адаптивное преобразование изменяющегося во времени сигнала и IHT восстановление сжатой воспринимаемой речи». Межречевой: 73–76.
  8. ^ Четупаллы С.Р .; Шринивас Т.В. (2012). «Совместный фреймворк для анализа формант и синтеза речи для CS восстановления речи». Межречевой: 946–949.
  9. ^ Asaei A .; Bourlard H .; Север В. (2011). "Компрессионное зондирование на основе модели для распознавания многосторонней удаленной речи". ICASSP: 4600–4603.
  10. ^ Аброл Винаяк; Шарма Пулкит (2013). «Улучшение речи с помощью сжатого распознавания». 2013 Конференция Запись 14-го Межпредставления: 3274–3278.