Нецентральные гипергеометрические распределения - Noncentral hypergeometric distributions

В статистика, то гипергеометрическое распределение дискретный распределение вероятностей генерируется путем случайного выбора цветных шаров из урна без замены.

Существуют различные обобщения этого распределения для случаев, когда выбираются цветные шары. пристрастный так что шары одного цвета будут выбраны с большей вероятностью, чем шары другого цвета.

Это можно проиллюстрировать на следующем примере. Предположим, что опрос общественного мнения осуществляется путем набора случайных телефонных номеров. Безработные люди с большей вероятностью будут дома и отвечать по телефону, чем работающие люди. Следовательно, безработные респонденты, вероятно, будут перепредставлены в образец. В распределение вероятностей занятых и безработных респондентов в выборке п респондентов можно охарактеризовать как нецентральное гипергеометрическое распределение.

Описание пристрастный модели урн осложняется тем, что есть более одного нецентрального гипергеометрического распределения. Какое распределение вы получите, зависит от того, отбираются ли образцы (например, цветные шары) один за другим в условиях конкуренции между предметами или они отбираются независимо друг от друга.

По этому поводу существует широко распространенное заблуждение. Название нецентральное гипергеометрическое распределение использовался для двух разных распределений, и несколько ученых использовали неправильное распределение или ошибочно полагали, что эти два распределения были идентичными.

Использование одного и того же имени для двух разных распределений стало возможным, потому что эти два распределения изучались двумя разными группами ученых, практически не контактировавших друг с другом.

Агнер Туман (2007, 2008) предположили, что лучший способ избежать путаницы - использовать имя Нецентральное гипергеометрическое распределение Валлениуса для распространения предвзятой модели урны, в которой заранее определенное количество предметов вытягивается один за другим на конкурсной основе, а название Нецентральное гипергеометрическое распределение Фишера используется, когда элементы рисуются независимо друг от друга, поэтому общее количество нарисованных элементов становится известно только после эксперимента. Имена относятся к Кеннету Теду Валлениусу и Р. А. Фишер которые первыми описали соответствующие распределения.

Нецентральное гипергеометрическое распределение Фишера ранее было дано имя расширенное гипергеометрическое распределение, но это имя редко используется в научной литературе, за исключением справочников, в которых необходимо различать эти два распределения. Некоторые ученые категорически против использования этого имени.

Очевидно, здесь необходимо подробное объяснение разницы между двумя нецентральными гипергеометрическими распределениями.

Нецентральное гипергеометрическое распределение Валлениуса

Распределение Валлениуса можно объяснить следующим образом. урна содержит красные шары и белые шары, всего мячи. шары вынимаются из урны случайным образом один за другим без замены. Каждый красный шар имеет вес , и каждый белый шар имеет вес . Мы предполагаем, что вероятность взять конкретный мяч пропорциональна его весу. Физическое свойство, определяющее шансы может быть чем-то другим, кроме веса, например размером, скользкостью или каким-либо другим фактором, но удобно использовать слово масса для параметра шансов.

Вероятность того, что первый выбранный шар будет красным, равна весовой доле красных шаров:

Вероятность того, что второй выбранный шар будет красным, зависит от того, был ли первый шар красным или белым. Если первый шар был красным, то формула выше используется с уменьшено на единицу. Если первый шар был белым, то формула выше используется с уменьшено на единицу.

Важный факт, который отличает распределение Валлениуса, заключается в том, что существует конкуренция между шарами. Вероятность того, что конкретный шар будет взят в конкретном розыгрыше, зависит не только от его собственного веса, но и от общего веса конкурирующих шаров, которые остаются в урне в этот момент. А вес соревнующихся мячей зависит от результатов всех предыдущих розыгрышей.

Если имеется более двух разных цветов, используется многомерная версия распределения Валлениуса.

Распределение не выпавших шаров - это дополнительное нецентральное гипергеометрическое распределение Валлениуса.

Нецентральное гипергеометрическое распределение Фишера

В модели Фишера судьбы шаров независимы и нет зависимости между розыгрышами. Мы можем взять все п шары одновременно. Каждый шар не знает, что происходит с другими шарами. По той же причине невозможно узнать стоимость п перед экспериментом. Если бы мы попытались исправить значение п тогда у нас не будет возможности предотвратить количество шаров п+1 от взятия без нарушения принципа независимости между шарами. п поэтому является случайной величиной, а распределение Фишера - условным распределением, которое может быть определено только после эксперимента, когда п наблюдается. Безусловное распределение - это два независимых биномы, по одному для каждого цвета.

Распределение Фишера можно просто определить как условное распределение двух или более независимых биномиальных переменных в зависимости от их суммы. Если имеется более двух цветов шаров, используется многомерная версия распределения Фишера.

Разница между двумя нецентральными гипергеометрическими распределениями

Сравнение распределений с одинаковыми шансами:
Синий: Валлениус ω = 0,5
красный: Фишер ω = 0,5
Зеленый: Центральная гипергеометрия ω = 1.
м1= 80, м2= 60, n = 100
Сравнение распределений с таким же средним:
Синий: Валлениус ω = 0,5
красный: Фишер ω = 0,28
Зеленый: Центральная гипергеометрия ω = 1.
м1= 80, м2= 60, n = 100

Распределения Валлениуса и Фишера примерно равны, когда отношение шансов около 1, а п мало по сравнению с общим количеством мячей, N. Разница между двумя распределениями становится больше, когда отношение шансов далеко от единицы и п рядом N. Два распределения аппроксимируют друг друга лучше, когда у них одинаковое среднее значение, чем когда у них одинаковые шансы (w = 1) (см. Рисунки выше).

Оба распределения вырождаются в гипергеометрическое распределение когда отношение шансов равно 1, или к биномиальное распределение когда п = 1.

Чтобы понять, почему эти два распределения различны, мы можем рассмотреть следующий крайний пример: урна содержит один красный шар с весом 1000 и тысячу белых шаров, каждый с весом 1. Мы хотим вычислить вероятность того, что красный шар будет нет взятый.

Сначала рассмотрим модель Валлениуса. Вероятность того, что красный шар не будет взят при первом розыгрыше, составляет 1000/2000 = ½. Вероятность того, что красный шар не будет взят во втором розыгрыше, при условии, что он не был взят в первом розыгрыше, составляет 999/1999 ≈ ½. Вероятность того, что красный шар не будет взят в третьем розыгрыше, при условии, что он не был взят в первых двух розыгрышах, составляет 998/1998 ≈ ½. Продолжая таким образом, мы можем вычислить, что вероятность не взять красный шар в п ничьих примерно 2−n так долго как п маленький по сравнению с N. Другими словами, вероятность не попасть в очень тяжелый мяч. п ничьи падают почти экспоненциально с п в модели Валлениуса. Экспоненциальная функция возникает из-за того, что все вероятности каждого розыгрыша умножаются.

Это не относится к модели Фишера, где шары берутся независимо и, возможно, одновременно. Здесь ничьи независимы, поэтому вероятности не умножаются. Вероятность не взять тяжелый красный шар в модели Фишера составляет примерно 1 / (п+1). Таким образом, в этом крайнем случае два распределения сильно различаются, хотя в менее крайних случаях они довольно похожи.

Чтобы распространение Wallenius было применимо, должны быть выполнены следующие условия:

  • Предметы берутся случайным образом из конечного источника, содержащего различные виды предметов, без замены.
  • Элементы рисуются по одному.
  • Вероятность взять конкретный предмет в конкретном розыгрыше равна его доле от общего «веса» всех предметов, которые еще не были взяты в этот момент. Вес предмета зависит только от его вида (цвета).
  • Общее количество п Количество предметов, которые нужно взять, фиксировано и не зависит от того, какие предметы нужно взять в первую очередь.

Для применимости распределения Фишера должны быть выполнены следующие условия:

  • Предметы берутся случайным образом из конечного источника, содержащего различные виды предметов, без замены.
  • Предметы берутся независимо друг от друга. Будет ли взят один предмет, не зависит от того, взят ли другой предмет. Не имеет значения, будет ли взят один предмет до, после или одновременно с другим.
  • Вероятность взять тот или иной предмет пропорциональна его «весу». Вес предмета зависит только от его вида (цвета).
  • Общее количество п количество предметов, которые будут взяты, не известно до начала эксперимента.
  • п определяется после эксперимента, а условное распределение для п известно желательно.

Примеры

Следующие ниже примеры дополнительно поясняют, какой дистрибутив использовать в различных ситуациях.

Пример 1

Вы ловите рыбу в небольшом озере, в котором водится ограниченное количество рыбы. Есть разные виды рыб с разным весом. Вероятность поймать конкретную рыбу в определенный момент пропорциональна ее весу.

Вы ловите рыбу по одной на удочку. Вы решили поймать п рыбы. Вы полны решимости поймать именно п рыбу независимо от того, сколько времени это может занять. Вы останавливаетесь после того, как поймали п рыбу, даже если вы видите больше рыбы, которая вас соблазняет.

Этот сценарий даст распределение типов пойманной рыбы, которое равно нецентральному гипергеометрическому распределению Валлениуса.

Пример 2

Вы ловите рыбу, как в примере 1, но используете большую сеть. Один день вы настраиваете сеть, а на следующий день возвращаетесь, чтобы удалить ее. Вы считаете, сколько рыбы вы поймали, и идете домой независимо от того, сколько рыбы вы поймали. У каждой рыбы есть вероятность попасть в сеть, которая пропорциональна ее весу, но не зависит от того, что происходит с другой рыбой.

Общее количество рыбы, которое будет поймано по этому сценарию, заранее не известно. Таким образом, ожидаемое количество пойманной рыбы описывается множеством биномиальных распределений, по одному для каждого вида рыбы.

После того, как рыба будет подсчитана, общее количество п рыбы известно. Распределение вероятностей при п известно (но количество каждого типа еще не известно) является нецентральным гипергеометрическим распределением Фишера.

Пример 3

Вы ловите рыбу небольшой сетью. Возможно, что одновременно в сеть могут попасть несколько рыб. Вы используете сеть несколько раз, пока не наберете хотя бы п рыбы.

Этот сценарий дает распределение, которое лежит между распределениями Валлениуса и Фишера. Общее количество пойманной рыбы может варьироваться, если в последнем улове будет слишком много рыбы. Вы можете положить лишнюю рыбу обратно в озеро, но это все равно не дает распределения Валлениуса. Это потому, что вы одновременно ловите несколько рыб. Условие, что каждый улов зависит от всех предыдущих уловов, не выполняется для рыбы, пойманной одновременно или в рамках одной операции.

Полученное распределение будет близко к распределению Валлениуса, если в каждом улове будет всего несколько рыб, а вы ловите много раз. Полученное распределение будет близко к распределению Фишера, если в каждом улове много рыбы и вы ловите несколько раз.

Пример 4

Вы ловите рыбу большой сетью. Рыбы беспорядочно плывут в сеть в ситуации, которая напоминает Пуассоновский процесс. Вы все время смотрите в сеть и беретесь за сеть, как только точно поймаете п рыбы.

Полученное распределение будет близко к распределению Фишера, потому что рыбы заплывают в сеть независимо друг от друга. Но судьбы рыб не полностью независимы, потому что конкретную рыбу можно спасти от пойманной, если п другая рыба попадает в сеть до того момента, когда эта конкретная рыба была поймана. Это более вероятно, если другая рыба будет тяжелой, чем легкой.

Пример 5

Вы ловите рыбу по одной на удочку, как в примере 1. Вам нужно определенное количество рыбы, чтобы прокормить семью. Вы останавливаетесь, когда общий вес пойманной рыбы превышает установленный предел. Полученное распределение будет близко к распределению Валлениуса, но не совсем потому, что решение об остановке зависит от веса пойманной вами рыбы. п поэтому точно не известно до рыбалки.

Заключение к примерам

Эти примеры показывают, что распределение видов пойманной рыбы зависит от способа ее ловли. Во многих ситуациях распределение находится где-то между нецентральными гипергеометрическими распределениями Валлениуса и Фишера.

Интересным следствием разницы между этими двумя распределениями является то, что вы в среднем получите больше тяжелой рыбы, если поймаете п рыбачить по одному, чем если вы поймаете п в то же время.

Эти выводы, конечно, могут быть применены к предвзятому отбору других объектов, кроме рыбы. В целом можно сказать, что параметр шансов имеет более сильное влияние на распределение Валлениуса, чем на распределение Фишера, особенно когда п/N в приоритете.

Вероятностная функция масс для нецентрального гипергеометрического распределения Валлениуса для различных значений отношения шансов ω.
m1 = 80, m2 = 60, n = 100, ω = 0,1 ... 20
Функция масс вероятности для нецентрального гипергеометрического распределения Фишера для различных значений отношения шансов ω.
m1 = 80, m2 = 60, n = 100, ω = 0,01 ... 1000

Смотрите также

Рекомендации

Johnson, N.L .; Kemp, A. W .; Коц, С. (2005), Одномерные дискретные распределения, Хобокен, Нью-Джерси: Wiley and Sons.

McCullagh, P .; Нелдер, Дж. А. (1983), Обобщенные линейные модели, Лондон: Чепмен и Холл.

Туман, Агнер (2007), Теория случайных чисел.

Фог, Агнер (2008), "Методы расчета нецентрального гипергеометрического распределения Валлениуса", Коммуникации в статистике - моделирование и вычисления, 37 (2), стр. 258–273, Дои:10.1080/03610910701790269, S2CID  9040568.