Обобщенная аддитивная модель для расположения, масштаба и формы - Generalized additive model for location, scale and shape
В Обобщенная аддитивная модель для местоположения, масштаба и формы (GAMLSS) это подход к статистическое моделирование и обучение. GAMLSS - это современный подход, основанный на распределении (полупараметрический ) регресс. Для переменной отклика (целевой) предполагается параметрическое распределение, но параметры этого распределения могут варьироваться в зависимости от объясняющих переменных с использованием линейных, нелинейных или гладких функций. В машинное обучение Говоря языком, GAMLSS - это форма машинного обучения с учителем.
В частности, статистическая структура GAMLSS позволяет адаптировать к данным гибкие модели регрессии и сглаживания. Модель GAMLSS предполагает, что переменная ответа имеет любое параметрическое распределение, которое может быть тяжелым или легким, а также иметь положительный или отрицательный перекос. Кроме того, все параметры распределения [положение (например, среднее), масштаб (например, дисперсия) и форма (асимметрия и эксцесс)] могут быть смоделированы как линейные, нелинейные или гладкие функции независимых переменных.
Обзор модели
Обобщенная аддитивная модель для местоположения, масштаба и формы (GAMLSS) - это статистическая модель, разработанная Ригби и Стасинопулосом (и позже расширенная) для преодоления некоторых ограничений, связанных с популярным обобщенные линейные модели (GLM) и обобщенные аддитивные модели (GAM). Для обзора этих ограничений см. Nelder and Wedderburn (1972).[1] и книга Хасти и Тибширани.[2]
В GAMLSS экспоненциальная семья распределение предположение для переменная ответа, (), (необходимо в GLM и GAM ), ослаблен и заменен семейством общего распространения, в том числе высоко перекос и / или куртотический непрерывный и дискретные распределения.
Систематическая часть модели расширена, чтобы можно было моделировать не только иметь в виду (или же место расположения ) но другие параметры распределения у как линейные и / или нелинейные, параметрические и / или аддитивные непараметрический функции объясняющие переменные и / или случайные эффекты.
GAMLSS особенно подходит для моделирования лептокуртика или же Platykurtic и / или положительно или отрицательно искаженная переменная ответа. За данные переменной ответа типа подсчета это касается чрезмерная дисперсия с помощью правильного сверхдисперсного дискретного распределения. Неоднородность также устраняется путем моделирования шкала или же параметры формы с использованием независимых переменных. Есть несколько пакетов, написанных на р связанных с моделями GAMLSS.[3]
Модель GAMLSS предполагает независимые наблюдения за с функцией вероятности (плотности) при условии вектор из четырех параметров распределения, каждый из которых может быть функцией независимых переменных. Первые два параметра распределения населения и обычно характеризуются как параметры местоположения и масштаба, в то время как остальные параметры, если они есть, характеризуются как параметры формы, например перекос и эксцесс параметры, хотя модель может применяться в более общем плане к параметрам любого распределения совокупности с максимум четырьмя параметрами распределения, и может быть обобщена на более чем четыре параметра распределения.
где μ, σ, ν, τ и векторы длины , - вектор параметров длины , фиксированная известная матрица проектирования порядка и гладкая непараметрическая функция независимой переменной , и .
Для центильной оценки Многоцентровая справочная группа ВОЗ по вопросам роста рекомендовали GAMLSS и экспоненциальное распределение мощности Бокса-Кокса (BCPE)[4] для разработки Стандартов роста детей ВОЗ.[5][6]
Какие дистрибутивы можно использовать
Форма распределения, принятая для переменной отклика y, является очень общей. Например, реализация GAMLSS в р[7] доступно около 100 различных дистрибутивов. Такие реализации также позволяют использовать усеченные распределения и цензурированные (или интервальные) переменные ответа.[7]
Рекомендации
- ^ Nelder, J.A .; Веддерберн, R.W.M (1972). «Обобщенные линейные модели». J. R. Stat. Soc. А. 135 (3): 370–384. Дои:10.2307/2344614. JSTOR 2344614.
- ^ Хасти, TJ; Тибширани, Р.Дж. (1990). Обобщенные аддитивные модели. Лондон: Чепмен и Холл.
- ^ Стасинопулос, Д. Микис; Ригби, Роберт А. (декабрь 2007 г.). «Обобщенные аддитивные модели для масштаба и формы местоположения (GAMLSS) в R». Журнал статистического программного обеспечения. 23 (7). Дои:10.18637 / jss.v023.i07.
- ^ Ригби, Роберт; Стасинопулос, Д. Микис (февраль 2004 г.). «Гладкие центильные кривые для данных смещения и куртотики, смоделированные с использованием экспоненциального распределения мощности Бокса-Кокса». Статистика в медицине. 23 (19): 3053–3076. Дои:10.1002 / sim.1861. PMID 15351960.
- ^ Borghi, E .; Де Онис, М .; Garza, C .; Van Den Broeck, J .; Frongillo, E. A .; Grummer-Strawn, L .; Van Buuren, S .; Pan, H .; Molinari, L .; Martorell, R .; Onyango, A. W .; Martines, J.C .; Многоцентровая справочная исследовательская группа ВОЗ по вопросам роста (2006 г.). «Построение стандартов роста детей Всемирной организации здравоохранения: выбор методов построения кривых достигнутого роста». Статистика в медицине. 25 (2): 247–265. Дои:10.1002 / sim.2227. PMID 16143968.
- ^ Многоцентровая справочная группа ВОЗ по изучению роста (2006 г.) Стандарты роста детей ВОЗ: длина тела / рост к возрасту, масса тела к возрасту, масса тела к длине тела, масса тела к росту и индекс массы тела к возрасту: методы и разработка. Женева: Всемирная организация здравоохранения.
- ^ а б "Пакеты R | игры". Пакеты R | азарт. Получено 4 мая 2020.
дальнейшее чтение
- Beyerlein, A .; Fahrmeir, L .; Mansmann, U .; Тошке, А. М. (2001). «Альтернативные регрессионные модели для оценки увеличения BM в детстве». BMC Методология медицинских исследований. 8: 59. Дои:10.1186/1471-2288-8-59.
- Коул, Т. Дж., Станоевич, С., Стокс, Дж., Коутс, А. Л., Хэнкинсон, Дж. Л., Уэйд, А. М. (2009), «Референсные диапазоны, связанные с возрастом и размером: тематическое исследование спирометрии в детстве и во взрослом возрасте», Статистика в медицине, 28(5), 880–898.Связь
- Фенске, Н., Фармейр, Л., Рзехак, П., Холе, М. (25 сентября 2008 г.), «Выявление факторов риска ожирения в раннем детстве с помощью методов квантильной регрессии для продольных данных», Департамент статистики: технические отчеты, №38 Связь
- Хадсон, И. Л., Ким, С. В., Китли, М. Р. (2010), «Влияние климата на фенологию цветения четырех эвкалиптов: фенологические исследования подхода GAMLSS». В Фенологические исследования, Ирен Л. Хадсон и Мари Р. Китли (редакторы), Springer, Нидерланды Связь
- Хадсон, И. Л., Ри, А., Далримпл, М. Л., Эйлерс, П. Х. С. (2008), «Влияние климата на синдром внезапной детской смерти: подход GAMLSS», Материалы 23-го международного семинара по статистическому моделированию. С. 277–280. Связь
- Нотт, Д. (2006). «Полупараметрическая оценка функций среднего и дисперсии для негауссовских данных». Вычислительная статистика. 21 (3–4): 603–620. CiteSeerX 10.1.1.117.6518. Дои:10.1007 / s00180-006-0017-9.
- Серинальди, Ф (2011). «Моделирование распределения и краткосрочное прогнозирование цен на электроэнергию с помощью обобщенных аддитивных моделей для местоположения, масштаба и формы». Экономика энергетики. 33 (6): 1216–1226. Дои:10.1016 / j.eneco.2011.05.001.
- Серинальди, Ф .; Куомо, Г. (2011). «Определение импульсных волновых нагрузок на палубе на береговых мостах с помощью вероятностных моделей максимумов ударов и времени нарастания». Береговая инженерия. 58 (9): 908–926. Дои:10.1016 / j.coastaleng.2011.05.010.
- Серинальди, Ф., Вилларини, Г., Смит, Дж. А., Краевски, В. Ф. (2008), "Анализ точек изменения и тенденций годового максимального расхода в континентальных Соединенных Штатах", Осеннее собрание Американского геофизического союза, 2008 г., аннотация № H21A-0803 *
- ван Огтроп, Ф. Ф .; Vervoort, R.W .; Heller, G. Z .; Стасинопулос, Д. М .; Ригби, Р. А. (2011). «Долгосрочное прогнозирование кратковременного стока». Обсуждения гидрологии и наук о Земле. 8 (1): 681–713. Дои:10.5194 / hessd-8-681-2011.
- Villarini, G .; Серинальди, Ф. (2011). «Разработка статистических моделей для локального вероятностного сезонного прогноза осадков». Международный журнал климатологии: н / д. Дои:10.1002 / joc.3393.
- Villarini, G .; Серинальди, Ф .; Smith, J. A .; Краевский, В. Ф. (2009). «О стационарности годовых пиков паводков в континентальной части США в ХХ веке». Исследование водных ресурсов. 45 (8). Дои:10.1029 / 2008wr007645.
- Villarini, G .; Smith, J. A .; Наполитано, Ф. (2010). «Нестационарное моделирование длительной записи осадков и температуры над Римом». Достижения в области водных ресурсов. 33 (10): 1256–1267. Дои:10.1016 / j.advwatres.2010.03.013.
внешняя ссылка
- Официальный сайт GAMLSS gamlss.org
- Руководство GAMLSS (загружаемое)[постоянная мертвая ссылка ]
- Таблицы распределения в GAMLSS[постоянная мертвая ссылка ]
- Справочная карта пакетов GAMLSS (загружаемая)[постоянная мертвая ссылка ]
- Буклет Утрехтского краткого курса по GAMLSS (загружаемый)[постоянная мертвая ссылка ]
- Пакеты R для GAMLSS на CRAN