Многомерная статистика - High-dimensional statistics
В статистическая теория, Поле многомерная статистика изучает данные, чьи измерение больше размеров, рассмотренных в классическом многомерный анализ. Статистика высокого измерения опирается на теория из случайные векторы. Во многих приложениях размер векторов данных может быть больше, чем размер образца.[1]
История
Традиционно статистические выводы рассматривает вероятностную модель для генеральной совокупности и рассматривает данные, полученные в результате выборки из совокупности. Для многих задач оценки характеристик («параметров») совокупности могут быть существенно уточнены (теоретически) по мере увеличения размера выборки до бесконечности. Традиционное требование к оценщикам: последовательность, то есть сходимость к неизвестному истинному значению параметра.
В 1968 г. Андрей Колмогоров предложил другую постановку статистических задач и другую постановку асимптотики, в которой размерность переменных п увеличивается вместе с размером выборки п так что соотношение п/п стремится к постоянной величине. Это было названо «асимптотикой возрастающей размерности» или «асимптотикой Колмогорова».[2] Подход Колмогорова позволяет выделить многие основные члены вероятностей ошибок и стандартных мер качества оценок (функций качества) для больших п и п.
В последнее время исследователи больше интересуются случаями еще большего размера, например , куда . Эти случаи возникают из-за необходимости извлекать значимую информацию из самых разных областей. В этих случаях были получены некоторые интересные результаты. Например, Стьюдент t-тест калибровка может быть недействительной, если размер .[3] Подробнее см. Также Поправка Шидака для t-теста.
Математическая теория
Были проведены обширные математические исследования, в результате которых была создана систематическая теория для улучшенных и асимптотически неулучшаемых версий многомерных статистических процедур.[4] Специальный параметр грамм то есть функция четвертых моментов переменных, обладающая тем свойством, что небольшое значение грамм порождает ряд специфически многопараметрических явлений. Для увеличения п и п так что п/п стремится к постоянному и грамм → 0, основные члены функционалов, инвариантных к вращению, встречающиеся в статистике, оказываются зависимыми только от первых двух моментов переменных. Под п и п стремясь к бесконечности, п/п → у > 0 и грамм → 0 эти функционалы имеют исчезающую дисперсию и сходятся к константам, которые представляют собой предельное значение эмпирических средних и дисперсий. Как следствие, между функциями параметров и функциями наблюдаемых переменных устанавливаются устойчивые интегральные отношения. Их называли «стохастическими каноническими уравнениями» или «дисперсионными уравнениями».[5] Используя их, можно выразить основные части стандартных функций качества регуляризованных многомерных статистических процедур как функции только наблюдаемых переменных. Это дает возможность выбирать лучшие процедуры и находить асимптотически неулучшаемые решения.
Текущие события
Статистика высокого измерения была в центре внимания многих семинаров и практикумов.[6][7][8][9]
Примечания
- ^ Мароцци, Марко (2015). «Многофакторные многомерные тесты для многомерных исследований методом случай-контроль с малым размером выборки». Статистика в медицине. 34 (9): 1511–1526. Дои:10.1002 / sim.6418. PMID 25630579.
- ^ С. А. Айвасян, В. М. Бухштабер, И. С. Енюков, Л. Д. Мешалкин. Прикладная статистика. Классификация и уменьшение размерности. Москва, 1989.
- ^ Фань, Цзяньцин; Холл, Питер; Яо, Цивэй (2007). «К скольким одновременным проверкам гипотез можно применить нормальную калибровку, калибровку Стьюдента или калибровку начальной загрузки». Журнал Американской статистической ассоциации. 102 (480): 1282–1288. arXiv:математика / 0701003. Дои:10.1198/016214507000000969.CS1 maint: ref = harv (связь)
- ^ http://hd-stat.narod.ru 'ВЫСОКОМЕРНАЯ (HD-) СТАТИСТИКА'.
- ^ В.Л. Гирко. Канонические стохастические уравнения, т. 1,2, Kluwer Academic Publishers, Дордрехт, 2000.
- ^ Программа многомерного вывода на 2006-2007 гг. САМСИ, США.
- ^ Семинар по анализу многомерных данных, Национальный университет Сингапура. Февраль 2008 г.
- ^ Практикумы HD-статистика в биологии, Isaac Newton Inst. по математике. Наук, Кембридж. 31.03-27.06 2008г.
- ^ Семинар молодой европейской статистики (YES-2), Эйндховен, Нидерланды. Июнь 2008 г.
Рекомендации
- Кристоф Жиро (2015). Введение в многомерную статистику. Филадельфия: Чепмен и Холл / CRC.CS1 maint: ref = harv (связь)
- Т. Тони Цай, Сяотун Шэнь, изд. (2011). Анализ данных большой размерности. Границы статистики. Сингапур: World Scientific.CS1 maint: ref = harv (связь)
- Петер Бюльманн и Сара ван де Гир (2011). Статистика для данных большой размерности: методы, теория и приложения. Гейдельберг; Нью-Йорк: Спрингер.CS1 maint: ref = harv (связь)
- Мартин Дж. Уэйнрайт (2019). Многомерная статистика: неасимптотическая точка зрения. Кембридж, Великобритания: Издательство Кембриджского университета.CS1 maint: ref = harv (связь)