Многомерная статистика - High-dimensional statistics

В статистическая теория, Поле многомерная статистика изучает данные, чьи измерение больше размеров, рассмотренных в классическом многомерный анализ. Статистика высокого измерения опирается на теория из случайные векторы. Во многих приложениях размер векторов данных может быть больше, чем размер образца.[1]

История

Традиционно статистические выводы рассматривает вероятностную модель для генеральной совокупности и рассматривает данные, полученные в результате выборки из совокупности. Для многих задач оценки характеристик («параметров») совокупности могут быть существенно уточнены (теоретически) по мере увеличения размера выборки до бесконечности. Традиционное требование к оценщикам: последовательность, то есть сходимость к неизвестному истинному значению параметра.

В 1968 г. Андрей Колмогоров предложил другую постановку статистических задач и другую постановку асимптотики, в которой размерность переменных п увеличивается вместе с размером выборки п так что соотношение п/п стремится к постоянной величине. Это было названо «асимптотикой возрастающей размерности» или «асимптотикой Колмогорова».[2] Подход Колмогорова позволяет выделить многие основные члены вероятностей ошибок и стандартных мер качества оценок (функций качества) для больших п и п.

В последнее время исследователи больше интересуются случаями еще большего размера, например , куда . Эти случаи возникают из-за необходимости извлекать значимую информацию из самых разных областей. В этих случаях были получены некоторые интересные результаты. Например, Стьюдент t-тест калибровка может быть недействительной, если размер .[3] Подробнее см. Также Поправка Шидака для t-теста.

Математическая теория

Были проведены обширные математические исследования, в результате которых была создана систематическая теория для улучшенных и асимптотически неулучшаемых версий многомерных статистических процедур.[4] Специальный параметр грамм то есть функция четвертых моментов переменных, обладающая тем свойством, что небольшое значение грамм порождает ряд специфически многопараметрических явлений. Для увеличения п и п так что п/п стремится к постоянному и грамм → 0, основные члены функционалов, инвариантных к вращению, встречающиеся в статистике, оказываются зависимыми только от первых двух моментов переменных. Под п и п стремясь к бесконечности, п/пу > 0 и грамм → 0 эти функционалы имеют исчезающую дисперсию и сходятся к константам, которые представляют собой предельное значение эмпирических средних и дисперсий. Как следствие, между функциями параметров и функциями наблюдаемых переменных устанавливаются устойчивые интегральные отношения. Их называли «стохастическими каноническими уравнениями» или «дисперсионными уравнениями».[5] Используя их, можно выразить основные части стандартных функций качества регуляризованных многомерных статистических процедур как функции только наблюдаемых переменных. Это дает возможность выбирать лучшие процедуры и находить асимптотически неулучшаемые решения.

Текущие события

Статистика высокого измерения была в центре внимания многих семинаров и практикумов.[6][7][8][9]

Примечания

  1. ^ Мароцци, Марко (2015). «Многофакторные многомерные тесты для многомерных исследований методом случай-контроль с малым размером выборки». Статистика в медицине. 34 (9): 1511–1526. Дои:10.1002 / sim.6418. PMID  25630579.
  2. ^ С. А. Айвасян, В. М. Бухштабер, И. С. Енюков, Л. Д. Мешалкин. Прикладная статистика. Классификация и уменьшение размерности. Москва, 1989.
  3. ^ Фань, Цзяньцин; Холл, Питер; Яо, Цивэй (2007). «К скольким одновременным проверкам гипотез можно применить нормальную калибровку, калибровку Стьюдента или калибровку начальной загрузки». Журнал Американской статистической ассоциации. 102 (480): 1282–1288. arXiv:математика / 0701003. Дои:10.1198/016214507000000969.CS1 maint: ref = harv (связь)
  4. ^ http://hd-stat.narod.ru 'ВЫСОКОМЕРНАЯ (HD-) СТАТИСТИКА'.
  5. ^ В.Л. Гирко. Канонические стохастические уравнения, т. 1,2, Kluwer Academic Publishers, Дордрехт, 2000.
  6. ^ Программа многомерного вывода на 2006-2007 гг. САМСИ, США.
  7. ^ Семинар по анализу многомерных данных, Национальный университет Сингапура. Февраль 2008 г.
  8. ^ Практикумы HD-статистика в биологии, Isaac Newton Inst. по математике. Наук, Кембридж. 31.03-27.06 2008г.
  9. ^ Семинар молодой европейской статистики (YES-2), Эйндховен, Нидерланды. Июнь 2008 г.

Рекомендации

  • Кристоф Жиро (2015). Введение в многомерную статистику. Филадельфия: Чепмен и Холл / CRC.CS1 maint: ref = harv (связь)
  • Т. Тони Цай, Сяотун Шэнь, изд. (2011). Анализ данных большой размерности. Границы статистики. Сингапур: World Scientific.CS1 maint: ref = harv (связь)
  • Петер Бюльманн и Сара ван де Гир (2011). Статистика для данных большой размерности: методы, теория и приложения. Гейдельберг; Нью-Йорк: Спрингер.CS1 maint: ref = harv (связь)
  • Мартин Дж. Уэйнрайт (2019). Многомерная статистика: неасимптотическая точка зрения. Кембридж, Великобритания: Издательство Кембриджского университета.CS1 maint: ref = harv (связь)