Распределение твиди - Tweedie distribution
В вероятность и статистика, то Распределения твиди семья распределения вероятностей которые включают чисто непрерывные нормальный, гамма и Обратный гауссовский распределений, чисто дискретные масштабированные распределение Пуассона, а класс соединение Пуассона – гамма распределения, которые имеют положительную массу в нуле, но в остальном являются непрерывными.[1]Твиди-дистрибутивы - это частный случай модели экспоненциальной дисперсии и часто используются как дистрибутивы для обобщенные линейные модели.[2]
Распределения Tweedie были названы Бент Йоргенсен[3] после Морис Твиди, статистик и медицинский физик Ливерпульский университет, Великобритания, который представил первое тщательное исследование этих распределений в 1984 году.[1][4][2]
Определения
Распространение (репродуктивного) твиди определяется как подсемейство (репродуктивного) модели экспоненциальной дисперсии (ED), со специальным иметь в виду -отклонение отношение. А случайная переменная Y распространяется Tweedie Twп(μ, σ2), если со средним , положительный параметр дисперсии и
куда называется степенным параметром Твиди. пθ, σ2 на измеримые множества А, дан кем-то
для некоторой σ-конечной меры νλЭто представление использует канонический параметр θ модели экспоненциальной дисперсии и кумулянтная функция
где мы использовали , или эквивалентно .
Характеристики
Аддитивные модели экспоненциальной дисперсии
Только что описанные модели имеют репродуктивную форму. Модель экспоненциальной дисперсии всегда имеет двойственную форму: аддитивную. Если Y репродуктивен, то с находится в аддитивной форме ED*(θ,λ), для Твиди Tw*п(μ, λ). Аддитивные модели обладают тем свойством, что распределение суммы независимых случайных величин,
для которого Zя ~ ED*(θ,λя) с фиксированной θ и различные λ являются членами семейства распределений с одинаковыми θ,
Репродуктивные модели экспоненциальной дисперсии
Существует второй класс моделей экспоненциальной дисперсии, обозначаемый случайной величиной
куда σ2 = 1/λ, известные как репродуктивные модели экспоненциальной дисперсии. У них есть свойство, что для п независимые случайные величины Yя ~ ED (μ,σ2/шя), с весовыми коэффициентами шя и
средневзвешенное значение переменных дает,
Для репродуктивных моделей средневзвешенное значение независимых случайных величин с фиксированными μ и σ2 и различные значения для шя является членом семейства дистрибутивов с таким же μ и σ2.
Модели экспоненциальной дисперсии Твиди являются одновременно аддитивными и воспроизводящими; таким образом, у нас есть преобразование двойственности
Масштабная инвариантность
Третье свойство моделей Tweedie состоит в том, что они масштабный инвариант: Для модели репродуктивной экспоненциальной дисперсии Twп(μ, σ2) и любая положительная постоянная c у нас есть свойство замыкания при преобразовании масштаба,
Функция отклонения мощности Твиди
Чтобы определить функция дисперсии для моделей экспоненциальной дисперсии мы используем отображение среднего значения, соотношение между каноническим параметром θ и среднее μ. Он определяется функцией
с кумулятивной функцией . функция дисперсии V(μ) строится из отображения среднего значения,
Здесь минус показатель в τ−1(μ) обозначает обратную функцию, а не обратную. Среднее значение и дисперсия аддитивной случайной величины равны E (Z) = λμ и var (Z) = λV(μ).
Масштабная инвариантность означает, что функция дисперсии подчиняется соотношению V(μ) = μ п.[2]
Отклонение от твиди
Единица отклонение репродуктивного распространения твиди дается
Производящие функции кумулянта Твиди
Свойства моделей экспоненциальной дисперсии дают нам два дифференциальные уравнения.[2] Первый связывает отображение среднего значения и функцию дисперсии друг с другом,
Второй показывает, как отображение среднего значения связано с кумулянтная функция,
Эти уравнения могут быть решены для получения кумулянтной функции для различных случаев моделей Твиди. Кумулянтная производящая функция (CGF) затем может быть получена из кумулянтной функции. Аддитивный CGF обычно определяется уравнением
и репродуктивный CGF
куда s - переменная производящей функции.
Для аддитивных моделей Tweedie CGF принимают форму
а для репродуктивных моделей
Аддитивные и репродуктивные модели Tweedie условно обозначаются символами Tw*п(θ,λ) и Twп(θ,σ2), соответственно.
Первая и вторая производные CGF, с s = 0, дает среднее значение и дисперсию соответственно. Таким образом, можно подтвердить, что для аддитивных моделей дисперсия относится к среднему по степенному закону,
Теорема Твиди о сходимости
Модели экспоненциальной дисперсии Твиди являются фундаментальными в статистической теории в силу того, что они играют роль фокусов конвергенция для широкого спектра статистических процессов. Йоргенсен и другие доказал теорему, которая определяет асимптотическое поведение дисперсионных функций, известную как теорема Твиди о сходимости ".[5] Технически эта теорема сформулирована так:[2] Функция единичной дисперсии регулярна порядка п в нуле (или бесконечности) при условии, что V(μ) ~ c0μп за μ поскольку он приближается к нулю (или бесконечности) для всех реальных значений п и c0 > 0. Тогда для регулярной функции единичной дисперсии порядка п либо в нуле, либо в бесконечности и для
для любого , и у нас есть
в качестве или же соответственно, где сходимость идет по значениям c такой, что cμ находится в сфере θ и cп−2/σ2 находится в сфере λ. Модель должна быть безгранично делимой как c2−п приближается к бесконечности.[2]
В нетехнических терминах эта теорема подразумевает, что любая модель экспоненциальной дисперсии, которая асимптотически проявляет степенной закон дисперсии к среднему, должна иметь функцию дисперсии, которая входит в область притяжения модели Tweedie. Почти все функции распределения с конечными кумулянтными производящими функциями квалифицируются как модели экспоненциальной дисперсии, и большинство моделей экспоненциальной дисперсии демонстрируют функции дисперсии этой формы. Следовательно, многие распределения вероятностей имеют функции дисперсии, которые выражают это асимптотическое поведение, и распределения Твиди становятся фокусом сходимости для широкого диапазона типов данных.[6]
Связанные дистрибутивы
Дистрибутивы Tweedie включают в себя ряд знакомых дистрибутивов, а также несколько необычных, каждый из которых определяется домен параметра индекса. У нас есть
- чрезвычайно стабильное распределение, п < 0,
- нормальное распределение, п = 0,
- распределение Пуассона, п = 1,
- составное распределение Пуассона – гамма, 1 < п < 2,
- гамма-распределение, п = 2,
- положительный стабильные дистрибутивы, 2 < п < 3,
- Обратное гауссово распределение, п = 3,
- положительные стабильные распределения, п > 3, и
- экстремально стабильные дистрибутивы, п = ∞.
Для 0 <п <1 модели Tweedie не существует. Обратите внимание, что все стабильный распределения означают на самом деле генерируется стабильными дистрибутивами.
Возникновение и приложения
Модели Твиди и степенной закон Тейлора
Закон Тейлора это эмпирический закон в экология который связывает дисперсию числа особей вида на единицу площади среды обитания с соответствующим средним значением посредством сила закона отношение.[7] Для подсчета населения Y со средним µ и дисперсия var (Y), Закон Тейлора записан,
куда а и п обе положительные константы. С тех пор, как Л. Р. Тейлор описал этот закон в 1961 году, было предложено множество различных объяснений, начиная от поведения животных,[7] а случайная прогулка модель,[8] а стохастическая модель рождения, смерти, иммиграции и эмиграции,[9] к следствию равновесия и неравновесия статистическая механика.[10] Нет единого мнения относительно объяснения этой модели.
Поскольку закон Тейлора математически идентичен степенному закону дисперсии к среднему, который характеризует модели Твиди, казалось разумным использовать эти модели и теорему о конвергенции Твиди для объяснения наблюдаемой группировки животных и растений, связанной с законом Тейлора.[11][12] Большинство наблюдаемых значений степенного показателя п попали в интервал (1,2), и поэтому составное гамма-распределение Пуассона Твиди может показаться применимым. Сравнение эмпирическая функция распределения к теоретическому составному распределению Пуассона – гамма предоставил средства для проверки непротиворечивости этой гипотезы.[11]
В то время как традиционные модели закона Тейлора, как правило, включают для этого случая поведение животных или динамика населения предположений, теорема Твиди о сходимости будет означать, что закон Тейлора является результатом общего математического эффекта сходимости во многом так же, как Центральная предельная теорема управляет поведением сходимости определенных типов случайных данных. В самом деле, любая математическая модель, приближение или симуляция, которые предназначены для получения закона Тейлора (на основе этой теоремы), должны сходиться к форме моделей Твиди.[6]
Твид конвергенция и 1 /ж шум
Розовый шум, или 1 /ж шум, относится к структуре шума, характеризуемой степенным соотношением между его интенсивностями S(ж) на разных частотах ж,
где безразмерный показатель γ ∈ [0,1]. Он встречается в различных природных процессах.[13] Много разных объяснений 1 /ж шум существует, широко распространенная гипотеза основана на Самоорганизованная критичность где динамические системы, близкие к критическая точка считаются проявлением масштабно-инвариантный пространственное и / или временное поведение.
В этом подразделе математическая связь между 1 /ж шум и степенной закон Твиди. Для начала нам сначала нужно ввести автомодельные процессы: Для последовательности чисел
со средним
отклонения
отклонение
и автокорреляционная функция
с запаздыванием k, если автокорреляция этой последовательности имеет дальнобойное поведение
в качестве k→∞ и где L(k) - медленно меняющаяся функция при больших значениях k, эта последовательность называется автомодельным процессом.[14]
В метод расширения бункеров может быть использован для анализа автомодельных процессов. Рассмотрим набор неперекрывающихся интервалов одинакового размера, который делит исходную последовательность N элементы в группы м сегменты одинакового размера (Н / м является целым числом), чтобы можно было определить новые репродуктивные последовательности на основе средних значений:
Дисперсия, определенная из этой последовательности, будет масштабироваться по мере изменения размера ячейки, так что
тогда и только тогда, когда автокорреляция имеет предельный вид[15]
Также можно построить набор соответствующих аддитивных последовательностей
на основе расширяющихся бункеров,
Если автокорреляционная функция демонстрирует такое же поведение, аддитивные последовательности будут подчиняться соотношению
С и являются константами, это отношение представляет собой степенной закон дисперсии к среднему, с п = 2 - d.[6][16]
В двухусловный вышеупомянутую связь между степенным законом дисперсии к среднему и автокорреляционной функцией степенного закона, а также Теорема Винера – Хинчина[17] подразумевают, что любая последовательность, которая демонстрирует степенной закон дисперсии к среднему с помощью метода расширения интервалов, также будет проявлять 1 /ж шум, и наоборот. Более того, теорема Твиди сходимости, в силу своего центрального предельного эффекта генерации распределений, которые проявляют степенные функции дисперсии к среднему, также будет генерировать процессы, которые проявляют 1 /ж шум.[6] Таким образом, теорема Твиди о сходимости дает альтернативное объяснение происхождения 1 /ж шум, основанный на его центральном предельном эффекте.
Во многом как Центральная предельная теорема требует, чтобы в фокусе конвергенции определенных видов случайных процессов была Гауссово распределение и таким образом выразить белый шум, теорема о сходимости Твиди требует, чтобы определенные негауссовские процессы имели в качестве центра сходимости распределения Твиди, которые выражают 1 /ж шум.[6]
Модели Твиди и мультифрактальность
Из свойств автомодельных процессов степенной показатель п = 2 - d относится к Показатель Херста ЧАС и фрактальная размерность D к[15]
Одномерная последовательность данных самоподобных данных может демонстрировать степенной закон дисперсии к среднему с локальными вариациями значения п и, следовательно, в стоимости D. Когда фрактальные структуры проявляют локальные вариации фрактальной размерности, они называются мультифракталы. Примеры последовательностей данных, которые демонстрируют локальные вариации в п как это включают в себя отклонения собственных значений Гауссовские ортогональные и унитарные ансамбли.[6] Составное распределение Пуассона – гамма Твиди служило для моделирования мультифрактальности на основе локальных вариаций показателя Твиди. α. Следовательно, в сочетании с вариацией α, теорема Твиди о сходимости может рассматриваться как играющая роль в возникновении таких мультифракталов.
Вариация α было обнаружено, что он подчиняется асимметричным Распределение Лапласа в некоторых случаях.[18] Было показано, что это распределение является членом семейства геометрических моделей Tweedie,[19] которые проявляются как предельные распределения в теореме сходимости для геометрических моделей дисперсии.
Кровоток в региональных органах
Кровоток в региональных органах традиционно оценивали путем инъекции радиоактивно меченый полиэтиленовые микросферы в артериальный кровоток животных такого размера, что они попадают в ловушку микроциркуляция органов. Затем оцениваемый орган делится на кубики равного размера, и количество радиоактивной метки в каждом кубе оценивается с помощью жидкостный сцинтилляционный счет и записал. Количество радиоактивности внутри каждого куба берется для отражения кровотока через этот образец во время инъекции. Можно оценить соседние кубы от органа, чтобы аддитивно определить кровоток через более крупные области. Благодаря работе Джей Би Бассингтуайт и др. был получен эмпирический степенной закон между относительной дисперсией кровотока в образцах тканей (RD = стандартное отклонение / среднее) массы м относительно эталонных образцов:[20]
Этот показатель степенного закона Ds получил название фрактальной размерности. Степенный закон Бассингтуайта можно показать, что они напрямую связаны со степенным законом дисперсии к среднему. Таким образом, региональный кровоток в органах можно смоделировать с помощью распределения Пуассона – гамма соединения Твиди.[21] В этой модели образец ткани можно рассматривать как содержащий случайное (пуассоновское) количество участков захвата, каждое из которых имеет гамма распределенная кровоток. Кровоток на этом уровне микроциркуляции подчиняется гамма-распределению,[22] таким образом подтверждая эту гипотезу.
Метастаз рака
«Экспериментальный рак» метастаз проба "[23] имеет некоторое сходство с описанным выше методом измерения регионарного кровотока. Группы сингенный и мышам соответствующего возраста внутривенно вводят аликвоты равных размеров суспензий клонированных раковых клеток, а затем через установленный период времени их легкие удаляют и подсчитывают количество метастазов рака в каждой паре легких. Если другим группам мышей вводят другие раковые клетки клоны тогда количество метастазов в группе будет отличаться в соответствии с метастатическим потенциалом клонов. Давно признано, что могут быть значительные внутриклональные различия в количестве метастазов на мышь, несмотря на все попытки сохранить однородность экспериментальных условий в каждой клональной группе.[23] Это отклонение больше, чем можно было бы ожидать на основе распределение Пуассона количества метастазов на мышь в каждом клоне, и когда дисперсия количества метастазов на мышь была построена против соответствующего среднего значения, был найден степенной закон.[24]
Было обнаружено, что степенной закон дисперсии к среднему для метастазов также выполняется для спонтанные мышиные метастазы[25] и для случаев серии человеческих метастазов.[26] Поскольку гематогенные метастазы возникают в прямой зависимости от регионарного кровотока[27] и видеомикроскопические исследования показывают, что прохождение и захват раковых клеток в кровотоке похоже на эксперименты с микросферами.[28] казалось правдоподобным предположить, что вариация в количестве гематогенных метастазов может отражать гетерогенность кровотока в региональных органах.[29] Модель кровотока была основана на распределении Пуассона – гамма соединения Твиди, распределении, управляющем непрерывной случайной величиной. По этой причине в модели метастазирования предполагалось, что кровоток регулируется этим распределением и что количество региональных метастазов возникает как Пуассоновский процесс для которых интенсивность была прямо пропорциональна кровотоку. Это привело к описанию отрицательного биномиального распределения Пуассона (PNB) как дискретный эквивалент к составному Пуассон-гамма-распределению Твиди. В функция, производящая вероятность для распределения PNB
Соотношение между средним значением и дисперсией распределения PNB тогда
который в диапазоне многих экспериментальных анализов метастазов был бы неотличим от закона степени дисперсии к среднему. Однако для разреженных данных это отношение дискретной дисперсии к среднему будет больше похоже на распределение Пуассона, где дисперсия равна среднему.
Геномная структура и эволюция
Местная плотность Полиморфизмы одиночных нуклеотидов (SNP) в человеческий геном, а также гены, похоже, группируется в соответствии со степенным законом дисперсии к среднему и составным распределением Пуассона – гамма Твиди.[30][31] В случае SNP их наблюдаемая плотность отражает методы оценки, доступность геномных последовательностей для анализа и нуклеотидная гетерозиготность.[32] Первые два фактора отражают ошибки установления, присущие методам сбора, последний фактор отражает внутреннее свойство генома.
в коалесцентная модель В популяционной генетике каждый генетический локус имеет свою уникальную историю. В ходе эволюции популяции от некоторых видов некоторые генетические локусы предположительно можно было проследить до относительно недавний общий предок в то время как другие локусы могут иметь более древние генеалогии. Более древние сегменты генома имели бы больше времени для накопления SNP и опыта рекомбинация. R R Hudson предложил модель, в которой рекомбинация может вызвать изменение времени до самый общий недавний предок для разных сегментов генома.[33] Высокая скорость рекомбинации может привести к тому, что хромосома будет содержать большое количество небольших сегментов с менее коррелированными генеалогиями.
Предполагая постоянную фоновую скорость мутации, количество SNP на геномный сегмент будет накапливаться пропорционально времени до самого последнего общего предка. Текущий популяционно-генетическая теория указывает на то, что эти времена будут гамма распределенная, в среднем.[34] Составное распределение Пуассона – гамма Твиди может предложить модель, в которой карта SNP будет состоять из нескольких небольших геномных сегментов со средним числом SNP на сегмент, который будет гамма-распределением в соответствии с моделью Хадсона.
Распределение генов в геноме человека также продемонстрировало степенной закон дисперсии к среднему, когда для определения соответствующих дисперсий и средних значений использовался метод расширения интервалов.[31] Аналогичным образом было обнаружено, что количество генов в счетном бункере подчиняется составному распределению Пуассона-гамма Твиди. Это распределение вероятностей было сочтено совместимым с двумя разными биологическими моделями: модель микропорядка где количество генов на единицу геномной длины определялось суммой случайного числа меньших геномных сегментов, полученных случайным разрывом и реконструкцией протохормосом. Предполагается, что эти меньшие сегменты несут в среднем гамма-распределенное количество генов.
В альтернативе модель кластера генов, гены будут случайным образом распределены в протохромосомах. В больших эволюционных временных масштабах произойдет тандемное дублирование, мутации, вставки, делеции и перестановки что может повлиять на гены через стохастический процесс рождения, смерти и иммиграции для получения составного Пуассона – гамма-распределения Твиди.
Оба эти механизма подразумевают нейтральные эволюционные процессы это приведет к региональной кластеризации генов.
Теория случайных матриц
В Гауссовский унитарный ансамбль (ГУЭ) состоит из сложных Эрмитовы матрицы которые инвариантны относительно унитарные преобразования тогда как Гауссов ортогональный ансамбль (GOE) состоит из вещественных симметричных матриц, инвариантных относительно ортогональные преобразования. В рейтинге собственные значения Eп из этих случайных матриц подчиняются Полукруглое распределение Вигнера: Для N×N матрица средней плотности для собственных значений размера E будет