Независимые и одинаково распределенные случайные величины - Independent and identically distributed random variables

В теория вероятности и статистика, собрание случайные переменные является независимые и одинаково распределенные если каждая случайная величина имеет одинаковые распределение вероятностей как другие и все взаимно независимый.[1] Это свойство обычно обозначается как i.i.d. или же iid или же IID. Здесь i.i.d. используется, потому что он наиболее распространен.

В теории машинного обучения i.i.d. Для обучающих наборов данных часто делается предположение, что все выборки происходят из одного и того же процесса генерации, и предполагается, что процесс генерации не имеет памяти о прошлых сгенерированных выборках.

Вступление

В статистика, обычно считается, что наблюдения в образец являются фактически i.i.d. Предположение (или требование) о том, что наблюдения будут i.i.d. имеет тенденцию упрощать математику, лежащую в основе многих статистических методов (см. математическая статистика и статистическая теория ). В практическом применении статистическое моделирование Однако это предположение может быть или не быть реалистичным.[2] Чтобы частично проверить, насколько реалистично предположение для данного набора данных, корреляция можно вычислить, графики задержки нарисованный или проверка точки поворота выполнила.[3]Обобщение заменяемые случайные величины часто бывает достаточно и легче выполняется.

I.i.d. предположение важно в классической форме Центральная предельная теорема, в котором говорится, что распределение вероятностей суммы (или среднего) i.i.d. переменные с конечными отклонение приближается к нормальное распределение.

Часто i.i.d. предположение возникает в контексте последовательностей случайных величин. Тогда «независимый и одинаково распределенный» означает, что элемент в последовательности не зависит от случайных величин, которые были перед ним. Таким образом, i.i.d. последовательность отличается от Марковская последовательность, где распределение вероятностей п-я случайная величина является функцией предыдущей случайной величины в последовательности (для марковской последовательности первого порядка). I.i.d. последовательность не подразумевает вероятности для всех элементов образец пространства или пространство событий должно быть таким же.[4] Например, повторные броски загруженных игральных костей приведут к i.i.d. последовательности, несмотря на смещение результатов.

Определение

Определение двух случайных величин

Предположим, что случайные величины и определены, чтобы принимать значения в . Позволять и быть кумулятивные функции распределения из и соответственно, и обозначим их совместная кумулятивная функция распределения к .

Две случайные величины и находятся одинаково распределены если и только если[5] .

Две случайные величины и находятся независимый если и только если . (См. Далее Независимость (теория вероятностей) § Две случайные величины.)

Две случайные величины и находятся i.i.d. если они независимы и одинаково распределены, т.е. тогда и только тогда, когда

 

 

 

 

(Уравнение 1)

Определение более двух случайных величин

Определение естественным образом распространяется на более чем две случайные величины. Мы говорим что случайные переменные находятся i.i.d. если они независимы (см. далее Независимость (теория вероятностей) # Более двух случайных величин ) и одинаково распределены, т.е. тогда и только тогда, когда

 

 

 

 

(Уравнение 2)

куда обозначает совместную кумулятивную функцию распределения .

Примеры

Ниже приведены примеры или приложения i.i.d. случайные переменные:

  • Последовательность исходов спинов честного или несправедливого рулетка колесо i.i.d. Одно из следствий этого состоит в том, что если шарик рулетки приземляется на «красное», например, 20 раз подряд, следующее вращение будет не более или менее «черным», чем при любом другом вращении (см. Заблуждение игрока ).
  • Последовательность бросков справедливых или загруженных костей - i.i.d.
  • Последовательность честных или несправедливых подбрасываний монеты - i.i.d.
  • В обработка сигналов и обработка изображений понятие трансформации в i.i.d. подразумевает две спецификации, "i.d." (i.d. = одинаково распределенная) часть и "i." (i. = независимая) часть:
    • (i.d.) уровень сигнала должен быть сбалансирован по оси времени;
    • (i.) спектр сигнала должен быть сглаженным, то есть преобразованным путем фильтрации (например, деконволюция ) к белый шум сигнал (т.е. сигнал, в котором все частоты одинаковы).

Следующие ниже примеры образцов данных не удовлетворяют требованиям i.i.d. предположение:

  • Набор медицинских данных, в котором несколько образцов взяты от нескольких пациентов, очень вероятно, что образцы от одних и тех же пациентов могут быть коррелированы.
  • Выборки взяты из процессов, зависящих от времени, например, данные переписи за год.

Обобщения

Многие результаты, которые были впервые доказаны в предположении, что случайные величины являются i.i.d. оказались верными даже при более слабом предположении о распределении.

Обмениваемые случайные величины

Наиболее общее понятие, которое разделяет основные свойства i.i.d. переменные заменяемые случайные величины, представлен Бруно де Финетти.[нужна цитата ] Возможность обмена означает, что, хотя переменные не могут быть независимыми, будущие переменные ведут себя так же, как и прошлые - формально любое значение конечной последовательности так же вероятно, как и любое другое. перестановка этих ценностей - совместное распределение вероятностей инвариантен относительно симметричная группа.

Это дает полезное обобщение - например, отбор проб без замены не является независимым, но может быть заменен.

Леви процесс

В стохастическое исчисление, i.i.d. переменные рассматриваются как дискретное время Леви процесс: каждая переменная показывает, насколько одна переменная изменяется от одного момента к другому. Например, последовательность испытаний Бернулли интерпретируется как Процесс Бернулли Это можно обобщить, чтобы включить процессы Леви с непрерывным временем, и многие процессы Леви можно рассматривать как пределы i.i.d. переменные - например, Винеровский процесс является пределом процесса Бернулли.

Смотрите также

Рекомендации

Цитаты

  1. ^ Клаузет, Аарон (2011). "Краткое руководство по распределению вероятностей" (PDF). Институт Санта-Фе.
  2. ^ Хэмпел, Франк (1998), "Неужели статистика слишком сложна?", Канадский статистический журнал, 26 (3): 497–513, Дои:10.2307/3315772, HDL:20.500.11850/145503, JSTOR  3315772 (§8).
  3. ^ Ле Будек, Жан-Ив (2010). Оценка производительности компьютерных и коммуникационных систем (PDF). EPFL Press. С. 46–47. ISBN  978-2-940222-40-7. Архивировано из оригинал (PDF) на 2013-10-12. Получено 2013-06-14.
  4. ^ Обложка, Т. М .; Томас, Дж. А. (2006). Элементы теории информации. Wiley-Interscience. С. 57–58. ISBN  978-0-471-24195-9.
  5. ^ Казелла и Бергер 2002, Теорема 1.5.10

Источники