Спектральный анализ методом наименьших квадратов - Least-squares spectral analysis

Спектральный анализ методом наименьших квадратов (LSSA) - метод оценки частотный спектр, на основе наименьших квадратов соответствие синусоиды к выборкам данных, аналогичным Анализ Фурье.[1][2] Анализ Фурье наиболее часто используемый спектральный метод в науке, как правило, усиливает длиннопериодический шум в записях с длинными интервалами; LSSA смягчает такие проблемы.[3]

LSSA также известен как Метод Ваничека[4] после Петр Ваничек, и как Метод Ломба[3] (или Периодограмма Ломба[5]) и Метод Ломба – Скаргла[6] (или же Периодограмма Ломба – Скаргла[2][7]), основанный на вкладе Николаса Р. Ломба[8] и, независимо, Джеффри Д. Скаргл.[9] Близко связанные методы были разработаны Майклом Коренбергом, Скоттом Ченом и Дэвид Донохо.

Историческое прошлое

Тесные связи между Анализ Фурье, то периодограмма, и наименьших квадратов подгонка синусоид известна давно.[10] Однако большинство разработок ограничиваются полными наборами данных, состоящими из равномерных выборок. В 1963 г. Фрик Дж. М. Барнинг из Mathematisch Centrum, Амстердам, данные с неравномерным интервалом обрабатывались аналогичными методами,[11] включая анализ периодограммы, эквивалентный тому, что сейчас называется методом Ломба, и аппроксимацию методом наименьших квадратов выбранных частот синусоид, определенных из таких периодограмм, связанных процедурой, которая теперь известна как подходящее преследование с дооборудованием[12] или поиск ортогонального соответствия.[13]

Петр Ваничек, канадец геодезист из Университет Нью-Брансуика, также предложил подход согласования-преследования, который он назвал «последовательным спектральным анализом», и в результате в 1969 году получил «периодограмму наименьших квадратов» с одинаковыми и неравно разнесенными данными.[14] Он обобщил этот метод для учета систематических компонентов, выходящих за рамки простого среднего, таких как «предсказанный линейный (квадратичный, экспоненциальный, ...) вековой тренд неизвестной величины», и применил его к множеству выборок в 1971 году.[15]

Затем метод Ваничека был упрощен в 1976 году Николасом Р. Ломбом из Сиднейский университет, который указал на его тесную связь с периодограмма анализ.[8] Определение периодограммы неравномерно разнесенных данных было впоследствии модифицировано и проанализировано Джеффри Д. Скарглом из Исследовательский центр НАСА Эймса,[9] который показал, что с небольшими изменениями ее можно сделать идентичной формуле наименьших квадратов Ломба для подбора индивидуальных частот синусоид.

Скаргл заявляет, что его статья «не вводит новый метод обнаружения, а вместо этого изучает надежность и эффективность обнаружения с помощью наиболее часто используемого метода, периодограммы, в случае, когда время наблюдения неравномерно расположены, "и далее указывает в отношении подбора синусоид методом наименьших квадратов по сравнению с анализом периодограмм, что его статья", по-видимому, впервые устанавливает, что (с предложенными модификациями) эти два метода в точности эквивалентны ".[9]

Нажмите[3] резюмирует развитие следующим образом:

Совершенно другой метод спектрального анализа для неравномерно отобранных данных, который смягчает эти трудности и имеет некоторые другие очень желательные свойства, был разработан Ломбом, частично на основе более ранней работы Барнинга и Ваничека, и дополнительно разработан Скаргл.

Майкл Коренберг из Королевского университета в 1989 году разработал метод «быстрого ортогонального поиска», позволяющий быстрее находить почти оптимальное разложение спектров или другие проблемы.[16] похож на метод, который позже стал известен как преследование ортогонального соответствия. В 1994 году Скотт Чен и Дэвид Донохо из Стэнфордского университета разработали метод «базового поиска» с использованием минимизации L1 норма коэффициентов, чтобы представить задачу как линейное программирование проблема, для которой доступны эффективные решения.[17]

Метод Ваничека

В методе Ваничека дискретный набор данных аппроксимируется взвешенной суммой синусоид прогрессивно определяемых частот с использованием стандартной линейная регрессия, или же наименьших квадратов поместиться.[18] Частоты выбираются с использованием метода, аналогичного методу Барнинга, но идущего дальше в оптимизации выбора каждой последующей новой частоты путем выбора частоты, которая минимизирует невязку после аппроксимации методом наименьших квадратов (эквивалентно методу аппроксимации, теперь известному как подходящее преследование с дооснащением[12]). Количество синусоид должно быть меньше или равно количеству выборок данных (считая синусы и косинусы той же частоты, что и отдельные синусоиды).

Вектор данных Φ представлен в виде взвешенной суммы синусоидальных базисных функций, табулированных в матрице А оценивая каждую функцию во время выборки, с вектором веса Икс:

где весовой вектор Икс выбирается так, чтобы минимизировать сумму квадратов ошибок аппроксимации Φ. Решение для Икс в закрытой форме, используя стандартные линейная регрессия:[19]

Здесь матрица A может быть основана на любом наборе функций, которые являются взаимно независимыми (не обязательно ортогональными) при оценке во время выборки; для спектрального анализа обычно используются функции синусов и косинусов, равномерно распределенных по интересующему диапазону частот. Если слишком много частот выбрано в слишком узком частотном диапазоне, функции не будут достаточно независимыми, матрица будет плохо обусловлена, и результирующий спектр не будет иметь смысла.[19]

Когда базис функционирует в А ортогональны (т. е. не коррелированы, то есть столбцы не имеют попарных точечные продукты ), матрица АТА - диагональная матрица; когда все столбцы имеют одинаковую мощность (сумму квадратов элементов), тогда эта матрица является единичная матрица умноженное на константу, поэтому обращение тривиально. Последний случай имеет место, когда времена выборки равномерно разнесены, а синусоиды выбраны так, чтобы быть синусами и косинусами, равномерно распределенными попарно в частотном интервале от 0 до полупериода на выборку (с интервалом 1 / N цикла на выборку, опуская синус фазы на 0 и максимальной частоте, где они идентичны нулю). Этот конкретный случай известен как дискретное преобразование Фурье, немного переписанный с точки зрения реальных данных и коэффициентов.[19]

(Случай DFT для N равномерно распределенные выборки и частоты в пределах скалярного фактора)

Ломб предложил использовать это упрощение в целом, за исключением парных корреляций между синусоидальными и косинусными основаниями одной и той же частоты, поскольку корреляции между парами синусоид часто невелики, по крайней мере, когда они не слишком близко расположены. По сути, это традиционный периодограмма формулировка, но теперь принята для использования с неравномерно расположенными образцами. Вектор Икс является хорошей оценкой основного спектра, но поскольку корреляции игнорируются, АИкс больше не является хорошим приближением к сигналу, и этот метод больше не является методом наименьших квадратов - тем не менее, он продолжает называться таковым.

Периодограмма Ломба – Скаргла

Вместо того, чтобы напрямую брать точечные произведения данных с синусоидальными и косинусоидальными сигналами, Скаргл изменил стандартную формулу периодограммы, чтобы сначала найти временную задержку τ, так что эта пара синусоид будет взаимно ортогональной во время выборки. тj, а также с поправкой на потенциально неравные мощности этих двух базисных функций, чтобы получить лучшую оценку мощности на частоте,[3][9] что сделало его модифицированный метод периодограмм в точности эквивалентным методу наименьших квадратов Ломба. Задержка τ определяется по формуле

Периодограмма на частоте ω затем оценивается как:

отчеты Scargle имеют такое же статистическое распределение, что и периодограмма в случае с равномерной выборкой.[9]

На любой индивидуальной частоте ω этот метод дает ту же мощность, что и метод наименьших квадратов для синусоид этой частоты в форме

[20]

Обобщенная периодограмма Ломба – Скаргла.

Стандартная периодограмма Ломба – Скаргла действительна для модели с нулевым средним. Обычно это приближается путем вычитания среднего значения данных перед вычислением периодограммы. Однако это неверное предположение, когда среднее значение модели (подогнанные синусоиды) не равно нулю. В обобщенный Периодограмма Ломба – Скаргла устраняет это предположение и явно вычисляет среднее значение. В этом случае установленная функция

[21]

Обобщенная периодограмма Ломба – Скаргла также упоминается как периодограмма с плавающим средним.[22]

Метод "быстрого ортогонального поиска" Коренберга

Майкл Коренберг из Королевский университет в Кингстон, Онтарио, разработала метод выбора разреженного набора компонентов из чрезмерно полного набора, такого как синусоидальные компоненты для спектрального анализа, который называется быстрым ортогональным поиском (FOS). Математически FOS использует слегка измененный Разложение Холецкого в процессе уменьшения среднеквадратичной ошибки (MSER), реализованном как разреженная матрица инверсия.[16][23] Как и другие методы LSSA, FOS позволяет избежать главного недостатка дискретного анализа Фурье и может обеспечить высокоточную идентификацию встроенных периодичностей и превосходит данные с неравномерными интервалами; Метод быстрого ортогонального поиска также применялся для решения других задач, таких как идентификация нелинейных систем.

Метод "преследования за основу" Чена и Донохо

Чен и Донохо разработали процедуру под названием базовое преследование для подгонки редкого набора синусоид или других функций из чрезмерно полного набора. Метод определяет оптимальное решение как такое, которое минимизирует L1 норма коэффициентов, так что задачу можно представить в виде линейное программирование проблема, для которой доступны эффективные методы решения.[17]

Метод хи-квадрат Палмера

Палмер разработал метод поиска функции наилучшего соответствия для любого выбранного количества гармоник, что дает больше свободы для поиска несинусоидальных гармонических функций.[24] Этот метод является быстрым (БПФ на основе) для выполнения взвешенный анализ методом наименьших квадратов на произвольно расположенных данных с неоднородными стандартными ошибками. Исходный код, реализующий эту технику, доступен.[25]Поскольку данные часто не отбираются в равномерно распределенные дискретные моменты времени, этот метод «объединяет» данные в виде сетки, разреженно заполняя массив временных рядов во время выборки. Все промежуточные точки сетки получают нулевой статистический вес, что эквивалентно бесконечным полосам погрешностей между выборками.

Приложения

Самая полезная функция метода LSSA - это возможность использования неполных записей. спектрально проанализированы, без необходимости манипулировать запись или изобретать иным образом несуществующие данные.

Величины в LSSA спектр изображают вклад частоты или периода в отклонение из Временные ряды.[14] Как правило, спектральные амплитуды, определенные вышеописанным способом, позволяют напрямую уровень значимости режим.[26] В качестве альтернативы звездные величины в спектре Ваничека также могут быть выражены в дБ.[27] Обратите внимание, что звездные величины в спектре Ваничека следуют β-распределение.[28]

Обратное преобразование LSSA Ваничека возможно, что легче всего увидеть, записав прямое преобразование в виде матрицы; обратная матрица (когда матрица не является сингулярной) или псевдообратная будет тогда обратным преобразованием; обратное будет точно соответствовать исходным данным, если выбранные синусоиды взаимно независимы в точках выборки и их количество равно количеству точек данных.[19] Подобная обратная процедура для метода периодограммы неизвестна.

Выполнение

LSSA можно реализовать менее чем за страницу MATLAB код.[29] По сути:[18]

"чтобы вычислить спектр наименьших квадратов, мы должны вычислить м спектральные значения ... который включает в себя выполнение приближения наименьших квадратов м раз, каждый раз, чтобы получить [спектральную мощность] для другой частоты »

То есть для каждой частоты в желаемом наборе частот синус и косинус функции оцениваются в моменты времени, соответствующие выборкам данных, и точечные продукты данных вектор с синусоиды векторы взяты и соответствующим образом нормированы; следуя методу, известному как периодограмма Ломба / Скаргла, временной сдвиг вычисляется для каждой частоты, чтобы ортогонализировать компоненты синуса и косинуса перед скалярным произведением, как описано Креймером;[19] наконец, мощность вычисляется из этих двух амплитуда составные части. Этот же процесс реализует дискретное преобразование Фурье когда данные равномерно распределены во времени, а выбранные частоты соответствуют целому числу циклов конечной записи данных.

Этот метод обрабатывает каждый синусоидальный компонент независимо или вне контекста, даже если они могут быть не ортогональными в точках данных; это оригинальный метод Ваничека. Напротив, как объясняет Креймер, также можно выполнить полную одновременную или контекстную аппроксимацию методом наименьших квадратов, решив матричное уравнение, разделив общую дисперсию данных между указанными частотами синусоид.[19] Такое матричное решение методом наименьших квадратов изначально доступно в MATLAB как обратная косая черта оператор.[30]

Креймер объясняет, что одновременный или контекстный метод, в отличие от независимой или внеконтекстной версии (а также версии периодограммы из-за Ломба), не может вместить больше компонентов (синусов и косинусов), чем имеется выборок данных, и далее что:[19]

«... серьезные последствия могут также возникнуть, если выбранные частоты приводят к тому, что некоторые из компонентов Фурье (триггерные функции) становятся почти линейно зависимыми друг от друга, тем самым создавая плохо обусловленную или почти сингулярную N. Во избежание такой плохой обусловленности становится необходимо либо выбрать другой набор частот для оценки (например, равномерно разнесенные частоты), либо просто пренебречь корреляциями в N (то есть недиагональными блоками) и оценить обратное преобразование методом наименьших квадратов отдельно для отдельных частот ... "

С другой стороны, метод периодограммы Ломба может использовать произвольно большое количество или плотность частотных компонентов, как в стандартном периодограмма; то есть частотная область может быть передискретизирована произвольным фактором.[3]

В анализе Фурье, например преобразование Фурье или дискретное преобразование Фурье, синусоиды, подгоняемые к данным, все взаимно ортогональны, поэтому нет никакого различия между простой проекцией на основе скалярного произведения вне контекста на базисные функции и одновременной подгонкой методом наименьших квадратов в контексте; то есть не требуется обращения матрицы для разделения дисперсии между ортогональными синусоидами различных частот методом наименьших квадратов.[31] Этот метод обычно предпочитают из-за его эффективной быстрое преобразование Фурье реализация, когда доступны полные записи данных с одинаковыми выборками.

Смотрите также

Рекомендации

  1. ^ Джафер Ибаноглу (2000). Переменные звезды как важные астрофизические инструменты. Springer. ISBN  0-7923-6084-2.
  2. ^ а б Д. Скотт Бирни; Дэвид Опер; Гильермо Гонсалес (2006). Наблюдательная астрономия. Издательство Кембриджского университета. ISBN  0-521-85370-2.
  3. ^ а б c d е Пресса (2007). Числовые рецепты (3-е изд.). Издательство Кембриджского университета. ISBN  978-0-521-88068-8.
  4. ^ Дж. Тейлор; С. Гамильтон (1972-03-20). «Некоторые тесты метода спектрального анализа Ваничека». Астрофизика и космическая наука. 17 (2): 357–367. Bibcode:1972Ap & SS..17..357T. Дои:10.1007 / BF00642907.
  5. ^ Алистер И. Мис (2001). Нелинейная динамика и статистика. Springer. ISBN  0-8176-4163-7.
  6. ^ Фрэнк Чемберс (2002). Изменение климата: важнейшие концепции окружающей среды. Рутледж. ISBN  0-415-27858-9.
  7. ^ Ханс П. А. Ван Донген (1999). «Поиск биологических ритмов: обнаружение пика в периодограмме неравномерно разнесенных данных». Журнал биологических ритмов. 14 (6): 617–620. Дои:10.1177/074873099129000984. PMID  10643760.
  8. ^ а б Ломб, Н. Р. (1976). «Частотный анализ методом наименьших квадратов неравномерно разнесенных данных». Астрофизика и космическая наука. 39 (2): 447–462. Bibcode:1976Ap & SS..39..447L. Дои:10.1007 / BF00648343.
  9. ^ а б c d е Скаргл, Дж. Д. (1982). «Исследования по анализу астрономических временных рядов. II - Статистические аспекты спектрального анализа неравномерно распределенных данных». Астрофизический журнал. 263: 835. Bibcode:1982ApJ ... 263..835S. Дои:10.1086/160554.
  10. ^ Дэвид Брант (1931). Комбинация наблюдений (2-е изд.). Издательство Кембриджского университета.
  11. ^ Барнинг, Ф. Дж. М. (1963). «Численный анализ кривой блеска 12 Лакертов». Бюллетень астрономических институтов Нидерландов. 17: 22. Bibcode:1963БАН .... 17 ... 22Б.
  12. ^ а б Паскаль Винсент; Йошуа Бенжио (2002). "Погоня за соответствием ядра" (PDF). Машинное обучение. 48: 165–187. Дои:10.1023 / А: 1013955821559.
  13. ^ Ю. К. Пати, Р. Резайифар и П. С. Кришнапрасад, «Поиск ортогонального согласования: приближение рекурсивной функции с приложениями к вейвлет-разложению», в Proc. 27-я конференция Asilomar по сигналам, системам и компьютерам, А. Сингх, изд., Лос-Аламитос, Калифорния, США, IEEE Computer Society Press, 1993.
  14. ^ а б Ваничек, П. (1969). «Приблизительный спектральный анализ методом наименьших квадратов». Астрофизика и космическая наука. 4 (4): 387–391. Bibcode:1969Ap & SS ... 4..387В. Дои:10.1007 / BF00651344.
  15. ^ Ваничек, П. (1971). «Дальнейшее развитие и свойства спектрального анализа методом наименьших квадратов». Астрофизика и космическая наука. 12 (1): 10–33. Bibcode:1971Ap & SS..12 ... 10В. Дои:10.1007 / BF00656134.
  16. ^ а б Коренберг, М. Дж. (1989). «Надежный ортогональный алгоритм для идентификации системы и анализа временных рядов». Биологическая кибернетика. 60 (4): 267–276. Дои:10.1007 / BF00204124. PMID  2706281.
  17. ^ а б С. Чен и D.L. Донохо (1994), «Основное преследование». Технический отчет, Департамент статистики, Стэнфордский университет, доступен на [1] В архиве 2017-07-05 в Wayback Machine
  18. ^ а б Уэллс, Д.Е., П. Ваничек, С. Пагиатакис, 1985. Возвращение к спектральному анализу методом наименьших квадратов. Технический отчет 84 Департамента геодезии, Университет Нью-Брансуика, Фредериктон, 68 страниц, доступен по адресу [2].
  19. ^ а б c d е ж грамм Креймер, М.Р., Спектр наименьших квадратов, его обратное преобразование и функция автокорреляции: теория и некоторые приложения в геодезии[постоянная мертвая ссылка ], Кандидат наук. Диссертация, Университет Торонто, Канада (1998 г.).
  20. ^ Уильям Дж. Эмери; Ричард Э. Томсон (2001). Методы анализа данных в физической океанографии. Эльзевир. ISBN  0-444-50756-6.
  21. ^ М. Цехмайстер; М. Кюрстер (март 2009 г.). «Обобщенная периодограмма Ломба – Скаргла. Новый формализм для периодограмм с плавающим средним и кеплеровской периодограммы». Астрономия и астрофизика. 496 (2): 577–584. arXiv:0901.2573. Bibcode:2009A&A ... 496..577Z. Дои:10.1051/0004-6361:200811296.
  22. ^ Эндрю Камминг; Джеффри В. Марси; Р. Пол Батлер (декабрь 1999 г.). "The Lick Planet Search: обнаруживаемость и пороги массы". Астрофизический журнал. 526 (2): 890–915. arXiv:Astro-ph / 9906466. Bibcode:1999ApJ ... 526..890C. Дои:10.1086/308020.
  23. ^ Коренберг, Майкл Дж .; Brenan, Colin J. H .; Хантер, Ян В. (1997). "Рамановская спектральная оценка с помощью быстрого ортогонального поиска". Аналитик. 122 (9): 879–882. Bibcode:1997Ана ... 122..879K. Дои:10.1039 / a700902j.
  24. ^ Палмер, Дэвид М. (2009). «Быстрый метод хи-квадрат для периодического поиска данных с нерегулярной выборкой». Астрофизический журнал. 695 (1): 496–502. arXiv:0901.1913. Bibcode:2009ApJ ... 695..496P. Дои:10.1088 / 0004-637X / 695/1/496.
  25. ^ «Дэвид Палмер: быстрый поиск периода хи-квадрат».
  26. ^ Берд А.Г., Уильямс П.Дж., Митчелл Н.Дж. и Мюллер Х.Г. Специальная климатология планетарных волн и приливной изменчивости // Дж. Атм. Solar-Ter. Phys. 63 (09), стр. 801–811 (2001).
  27. ^ Пагиатакис, С. Стохастическая значимость пиков в спектре наименьших квадратов, J of Geodesy 73, p.67-78 (1999).
  28. ^ Стивс, Р.Р. Статистический тест на значимость пиков в спектре наименьших квадратов, Сборник документов геодезической службы, Министерство энергетики, горнодобывающей промышленности и ресурсов, исследования и картография, Оттава, Канада, стр.149-166 (1981).
  29. ^ Ричард А. Мюллер; Гордон Дж. Макдональд (2000). Ледниковые периоды и астрономические причины: данные, спектральный анализ и механизмы. Springer. ISBN  3-540-43779-7.
  30. ^ Тимоти А. Дэвис; Кермит Сигмон (2005). MATLAB Primer. CRC Press. ISBN  1-58488-523-8.
  31. ^ Даррелл Уильямсон (1999). Обработка сигналов в дискретном времени: алгебраический подход. Springer. ISBN  1-85233-161-5.

внешняя ссылка