Информационный критерий Акаике - Akaike information criterion

В Информационный критерий Акаике (AIC) является оценщик из вне выборки ошибка прогноза и, следовательно, относительное качество статистические модели для заданного набора данных.^[1]^[2] Учитывая набор моделей для данных, AIC оценивает качество каждой модели относительно каждой из других моделей. Таким образом, AIC предоставляет средства для выбор модели.

AIC основана на теория информации. Когда статистическая модель используется для представления процесса, создавшего данные, представление почти никогда не будет точным; поэтому некоторая информация будет потеряна при использовании модели для представления процесса. AIC оценивает относительный объем информации, потерянной данной моделью: чем меньше информации теряет модель, тем выше качество этой модели.

При оценке количества информации, теряемой моделью, AIC рассматривает компромисс между степень соответствия модели и простота модели. Другими словами, AIC имеет дело с риском переоснащение и риск недообучения.

Информационный критерий Акаике назван в честь японского статистика. Хиротугу Акаике, кто это сформулировал. Теперь он составляет основу парадигмы основы статистики а также широко используется для статистические выводы.

Определение

Предположим, что у нас есть статистическая модель некоторых данных. Позволять $k$ быть числом оценочных параметры в модели. Позволять ${ displaystyle { hat {L}}}$ быть максимальным значением функция правдоподобия для модели. Тогда значение AIC модели будет следующим.^[3]^[4]

{ Displaystyle mathrm {AIC} , = , 2k-2 ln ({ hat {L}})}

Учитывая набор моделей-кандидатов для данных, предпочтительной является модель с минимальным значением AIC. Таким образом, AIC награждает степень соответствия (как оценивается функцией правдоподобия), но также включает штраф, который является возрастающей функцией количества оцениваемых параметров. Штраф обескураживает переоснащение, что желательно, потому что увеличение количества параметров в модели почти всегда улучшает точность подбора.

AIC основана в теория информации. Предположим, что данные генерируются каким-то неизвестным процессом ж. Мы рассматриваем две модели кандидатов для представления ж: г₁ и г₂. Если бы мы знали ж, то мы могли бы найти информацию, потерянную при использовании г₁ представлять ж путем расчета Дивергенция Кульбака – Лейблера, D_KL(ж ‖ г₁); аналогично, информация, потерянная при использовании г₂ представлять ж можно найти, вычислив D_KL(ж ‖ г₂). Затем мы, как правило, выбираем модель кандидата, которая минимизирует потерю информации.

Мы не можем выбирать с уверенностью, потому что не знаем ж. Акаике (1974) показал, однако, что мы можем оценить с помощью AIC, сколько больше (или меньше) информации теряется г₁ чем на г₂. Однако оценка верна только асимптотически; если количество точек данных невелико, то часто требуется некоторая корректировка (см. AICc ниже).

Обратите внимание, что AIC ничего не говорит об абсолютном качестве модели, только о качестве относительно других моделей. Таким образом, если все модели-кандидаты плохо подходят, AIC не предупредит об этом. Следовательно, после выбора модели с помощью AIC обычно рекомендуется проверять абсолютное качество модели. Такая проверка обычно включает проверки модели остатки (чтобы определить, кажутся ли остатки случайными) и проверки прогнозов модели. Для получения дополнительной информации по этой теме см. проверка статистической модели.

Как использовать AIC на практике

Чтобы применить AIC на практике, мы начинаем с набора моделей-кандидатов, а затем находим соответствующие значения AIC для моделей. Информация почти всегда будет потеряна из-за использования модели-кандидата для представления «истинной модели», то есть процесса, создавшего данные. Мы хотим выбрать среди моделей-кандидатов ту модель, которая минимизирует потерю информации. Мы не можем выбирать с уверенностью, но можем минимизировать предполагаемую потерю информации.

Предположим, что есть р кандидаты в модели. Обозначьте значения AIC этих моделей AIC.₁, АПК₂, АПК₃, ..., АПК_р. Пусть АПК_мин быть минимальным из этих значений. Тогда величина exp ((AIC_мин - АПК_я) / 2) можно интерпретировать как пропорциональную вероятности того, что я-я модель минимизирует (оценочную) потерю информации.^[5]

В качестве примера предположим, что существует три модели-кандидата, значения AIC которых равны 100, 102 и 110. Тогда вероятность второй модели exp ((100–102) / 2) = 0,368 раза выше, чем у первой модели, чтобы минимизировать потеря информации. Точно так же третья модель exp ((100 - 110) / 2) = 0,007 раза более вероятна, чем первая модель, чтобы минимизировать потерю информации.

В этом примере мы бы исключили третью модель из дальнейшего рассмотрения. Затем у нас есть три варианта: (1) собрать больше данных в надежде, что это позволит четко различать первые две модели; (2) просто сделать вывод, что данных недостаточно для выбора одной модели из первых двух; (3) возьмите средневзвешенное значение первых двух моделей с весами, пропорциональными 1 и 0,368, соответственно, а затем выполните статистические выводы на основе взвешенных мультимодель.^[6]

Величина exp ((AIC_мин - АПК_я) / 2) известен как относительная вероятность модели я. Это тесно связано с отношением правдоподобия, используемым в критерий отношения правдоподобия. Действительно, если все модели в наборе кандидатов имеют одинаковое количество параметров, тогда использование AIC может сначала показаться очень похожим на использование теста отношения правдоподобия. Однако есть важные различия. В частности, тест отношения правдоподобия действителен только для вложенные модели, тогда как AIC (и AICc) не имеет такого ограничения.^[7]^[8]

Проверка гипотезы

Каждые проверка статистической гипотезы можно сформулировать как сравнение статистических моделей. Следовательно, каждая проверка статистической гипотезы может быть воспроизведена через AIC. Два примера кратко описаны в подразделах ниже. Подробности этих и многих других примеров предоставлены Сакамото, Исигуро и Китагава (1986, Часть II) и Кониси и Китагава (2008), гл. 4).

Репликация студента т-тестовое задание

В качестве примера проверки гипотезы рассмотрим т-тестовое задание сравнивать средства двух нормально распределенный населения. Вход в т-тест включает случайную выборку из каждой из двух популяций.

Чтобы сформулировать тест как сравнение моделей, мы построим две разные модели. Первая модель моделирует две популяции как имеющие потенциально разные средние значения и стандартные отклонения. Таким образом, функция правдоподобия для первой модели является продуктом правдоподобия для двух различных нормальных распределений; поэтому у него есть четыре параметра: $μ 1, σ 1, μ 2, σ 2$ . Чтобы быть точным, функция правдоподобия выглядит следующим образом (обозначая размеры выборки $п 1$ и $п 2$ ).

{ Displaystyle { mathcal {L}} ( mu _ {1}, sigma _ {1}, mu _ {2}, sigma _ {2}) , = ,}

{ Displaystyle ; ; ; ; ; ; ; ; prod _ {я = 1} ^ {n_ {1}} { frac {1} {{ sqrt {2 pi}} sigma _ {1}}} exp left (- { frac {(x_ {i} - mu _ {1}) ^ {2}} {2 sigma _ {1} ^ {2}}} right) ; , { boldsymbol { cdot}} , prod _ {i = n_ {1} +1} ^ {n_ {1} + n_ {2}} { frac {1} {{ sqrt {2 pi}} sigma _ {2}}} exp left (- { frac {(x_ {i} - mu _ {2}) ^ {2}} {2 sigma _ { 2} ^ {2}}} right)}

Вторая модель моделирует две популяции как имеющие одинаковые средние значения, но потенциально разные стандартные отклонения. Таким образом, функция правдоподобия для второй модели устанавливает $μ 1 = μ 2$ в приведенном выше уравнении; поэтому у него есть три параметра.

Затем мы максимизируем функции правдоподобия для двух моделей (на практике мы максимизируем логарифмические функции правдоподобия); после этого легко рассчитать значения AIC моделей. Затем мы вычисляем относительную вероятность. Например, если вторая модель была всего в 0,01 раза более вероятной, чем первая модель, то мы бы исключили вторую модель из дальнейшего рассмотрения: так мы бы пришли к выводу, что две популяции имеют разные средние значения.

В т-тест предполагает, что две популяции имеют одинаковые стандартные отклонения; Тест будет ненадежным, если предположение неверно и размеры двух выборок сильно различаются (Велча т-тестовое задание было бы лучше). Сравнение средних значений совокупностей с помощью AIC, как в приведенном выше примере, имеет преимущество, поскольку не делает таких предположений.

Сравнение наборов категориальных данных

В качестве другого примера проверки гипотезы предположим, что у нас есть две популяции, и каждый член каждой популяции находится в одной из двух категории - категория №1 или категория №2. Каждая популяция биномиально распределенный. Мы хотим знать, одинаковы ли распределения двух популяций. Нам дается случайная выборка из каждой из двух популяций.

Позволять $м$ быть размером выборки из первой генеральной совокупности. Позволять $м 1$ - количество наблюдений (в выборке) в категории №1; таким образом, количество наблюдений в категории №2 равно $м - м 1$ . Аналогично пусть $п$ быть размером выборки из второй генеральной совокупности. Позволять $п 1$ - количество наблюдений (в выборке) в категории №1.

Позволять $п$ быть вероятностью того, что случайно выбранный член первой популяции находится в категории №1. Следовательно, вероятность того, что случайно выбранный член первой популяции находится в категории № 2, равна $1 - п$ . Обратите внимание, что распределение первой популяции имеет один параметр. Позволять $q$ быть вероятностью того, что случайно выбранный член второй совокупности находится в категории №1. Обратите внимание, что распределение второй популяции также имеет один параметр.

Чтобы сравнить распределения двух популяций, мы построим две разные модели. Первая модель моделирует две популяции как имеющие потенциально разные распределения. Таким образом, функция правдоподобия для первой модели является продуктом правдоподобия для двух различных биномиальных распределений; поэтому у него есть два параметра: $п$ , $q$ . Чтобы быть точным, функция правдоподобия выглядит следующим образом.

{ displaystyle { mathcal {L}} (p, q) , = , { frac {m!} {m_ {1}! (m-m_ {1})!}} p ^ {m_ {1 }} (1-p) ^ {m-m_ {1}} ; , { boldsymbol { cdot}} ; ; { frac {n!} {N_ {1}! (N-n_ { 1})!}} Q ^ {n_ {1}} (1-q) ^ {n-n_ {1}}}

Вторая модель моделирует две популяции как имеющие одинаковое распределение. Таким образом, функция правдоподобия для второй модели устанавливает $п = q$ в приведенном выше уравнении; так что вторая модель имеет один параметр.

Затем мы максимизируем функции правдоподобия для двух моделей (на практике мы максимизируем логарифмические функции правдоподобия); после этого легко вычислить значения AIC моделей. Затем мы вычисляем относительную вероятность. Например, если бы вероятность второй модели была всего в 0,01 раза выше, чем у первой модели, то мы бы исключили вторую модель из дальнейшего рассмотрения: так мы бы пришли к выводу, что две популяции имеют разные распределения.

Основы статистики

Статистические выводы обычно рассматривается как включающий проверку гипотез и предварительный расчет. Как обсуждалось выше, проверка гипотез может выполняться через AIC. Что касается оценки, то есть два типа: точечная оценка и интервальная оценка. Балльную оценку можно выполнить в рамках парадигмы AIC: она предоставляется оценка максимального правдоподобия. Оценка интервала также может быть сделана в рамках парадигмы AIC: это обеспечивается интервалы правдоподобия. Следовательно, статистический вывод обычно можно сделать в рамках парадигмы AIC.

Наиболее часто используемые парадигмы для статистического вывода: частотный вывод и Байесовский вывод. Однако AIC можно использовать для статистического вывода, не полагаясь ни на частотную парадигму, ни на байесовскую парадигму: потому что AIC можно интерпретировать без помощи уровни значимости или Байесовские априоры.^[9] Другими словами, AIC можно использовать для формирования основа статистики это отличается как от частотности, так и от байесовства.^[10]^[11]

Модификация для малого объема выборки

Когда образец размер небольшой, существует значительная вероятность того, что AIC выберет модели со слишком большим количеством параметров, т.е. что AIC будет переобучаться.^[12]^[13]^[14] Для устранения такого потенциального переобучения был разработан AICc: AICc - это AIC с поправкой на небольшие размеры выборки.

Формула для AICc зависит от статистической модели. Предполагая, что модель одномерный, линейна по своим параметрам и имеет нормально распределенные остатки (при условии наличия регрессоров), то формула для AICc выглядит следующим образом.^[15]^[16]

{ Displaystyle mathrm {AICc} , = , mathrm {AIC} + { frac {2k ^ {2} + 2k} {n-k-1}}}

-где $п$ обозначает размер выборки и $k$ обозначает количество параметров. Таким образом, AICc - это, по сути, AIC с дополнительным штрафным сроком для количества параметров. Обратите внимание, что как $п \to \infty$ , член дополнительного штрафа сходится к 0, и, таким образом, AICc сходится к AIC.^[17]

Если предположение, что модель является одномерной и линейной с нормальными остатками, не выполняется, то формула для AICc обычно будет отличаться от формулы выше. Для некоторых моделей бывает сложно определить формулу. Однако для каждой модели, имеющей доступный AICc, формула для AICc дается как AIC плюс термины, которые включают оба $k$ и $k$ ². Для сравнения, формула AIC включает $k$ но нет $k$ ². Другими словами, АПК - это оценка первого порядка (потери информации), тогда как AICc является оценка второго порядка.^[18]

Дальнейшее обсуждение формулы с примерами других допущений дается Бернхэм и Андерсон (2002), гл. 7) и по Кониси и Китагава (2008), гл. 7–8). В частности, с другими предположениями, оценка начальной загрузки формулы часто возможно.

Подводя итог, AICc имеет преимущество в том, что он более точен, чем AIC (особенно для небольших выборок), но AICc также имеет недостаток в том, что иногда его гораздо труднее вычислить, чем AIC. Обратите внимание: если все модели-кандидаты имеют одинаковые $k$ и та же формула для AICc, тогда AICc и AIC дадут идентичные (относительные) оценки; следовательно, не будет недостатков в использовании AIC вместо AICc. Кроме того, если $п$ во много раз больше, чем $k$ ², то срок дополнительного штрафа будет незначительным; следовательно, недостаток использования AIC вместо AICc будет незначительным.

История

Хиротугу Акаике

Информационный критерий Акаике сформулировал статистик Хиротугу Акаике. Первоначально он назывался «информационный критерий».^[19] Впервые на английском об этом объявил Акаике на симпозиуме 1971 года; Материалы симпозиума были опубликованы в 1973 г.^[19]^[20] Однако публикация 1973 года была лишь неформальным изложением концепций.^[21] Первой официальной публикацией была статья Акаике 1974 года.^[4] По состоянию на октябрь 2014 г.^{[Обновить]}, статья 1974 г. получила более 14 000 цитирований в Web of Science: что делает ее 73-й по величине исследовательской работой за все время.^[22]

В настоящее время AIC стал достаточно распространенным, поэтому его часто используют без ссылки на статью Акаике 1974 года. Действительно, существует более 150 000 научных статей / книг, в которых используется AIC (по оценке Google ученый ).^[23]

Первоначальный вывод AIC основывался на некоторых сильных предположениях. Такеучи (1976) показал, что предположения можно было сделать намного слабее. Однако работы Такеучи были написаны на японском языке и многие годы не были широко известны за пределами Японии.

AICc был первоначально предложен для линейная регрессия (только) Сугиура (1978). Это спровоцировало работу Гурвич и Цай (1989), а также несколько других работ тех же авторов, в которых расширились возможности применения AICc.

Первым общим изложением теоретико-информационного подхода был сборник Бернхэм и Андерсон (2002). Он включает в себя английскую презентацию работы Такеучи. Этот том привел к гораздо более широкому использованию AIC, и теперь на него цитируется более 48 000 ссылок. Google ученый.

Акаике назвал свой подход «принципом максимизации энтропии», потому что он основан на концепции энтропия в теории информации. В самом деле, минимизация AIC в статистической модели фактически эквивалентна максимизации энтропии в термодинамической системе; иными словами, теоретико-информационный подход в статистике, по сути, использует Второй закон термодинамики. Таким образом, AIC уходит корнями в работу Людвиг Больцманн на энтропия. Подробнее об этих проблемах см. Акаике (1985) и Бернхэм и Андерсон (2002), гл. 2).

Советы по использованию

Параметры подсчета

А статистическая модель должен соответствовать всем точкам данных. Таким образом, прямая линия сама по себе не является моделью данных, если все точки данных не лежат точно на линии. Однако мы можем выбрать модель «прямая линия плюс шум»; Формально такую модель можно описать так:y_я = б₀ + б₁Икс_я + ε_я. Здесь ε_я являются остатки от прямой подгонки. Если ε_я считаются i.i.d. Гауссовский (с нулевым средним), то модель имеет три параметра:б₀, б₁, и дисперсия гауссовых распределений, поэтому при вычислении значения AIC этой модели следует использовать k= 3. В общем, для любого наименьших квадратов модель с i.i.d. Гауссовы остатки, дисперсия распределений остатков должна учитываться как один из параметров.^[24]

В качестве другого примера рассмотрим первый порядок авторегрессионная модель, определяетсяИкс_я = c + φx_я−1 + ε_я, с ε_я будучи i.i.d. Гауссовский (с нулевым средним). Для этой модели есть три параметра: c, φ, а дисперсия ε_я. В более общем плане павторегрессионная модель -го порядка имеет п + 2 параметра. (Если, однако, c не оценивается на основе данных, а задается заранее, то есть только п + 1 параметр.)

Преобразование данных

Все значения AIC моделей-кандидатов должны быть вычислены с одним и тем же набором данных. Однако иногда мы можем захотеть сравнить модель переменная ответа, $y$ , с моделью логарифма переменной отклика, $журнал(y)$ . В более общем плане мы могли бы сравнить модель данных с моделью преобразованные данные. Ниже приводится иллюстрация того, как работать с преобразованием данных (адаптировано из Бернхэм и Андерсон (2002), §2.11.3): «Исследователи должны быть уверены, что все гипотезы моделируются с использованием одной и той же переменной ответа»).

Предположим, мы хотим сравнить две модели: одну с нормальное распределение из $y$ и один с нормальным распределением $журнал(y)$ . Мы должны не напрямую сравните значения AIC двух моделей. Вместо этого мы должны преобразовать нормальный кумулятивная функция распределения сначала взять логарифм $y$ . Для этого нам необходимо выполнить соответствующие интеграция путем замены: таким образом, нам нужно умножить на производную от (натуральный) логарифм функция, которая $1/ y$ . Следовательно, преобразованное распределение имеет следующее функция плотности вероятности:

{ displaystyle y mapsto , { frac {1} {y}} { frac {1} { sqrt {2 pi sigma ^ {2}}}} , exp left (- { frac { left ( ln y- mu right) ^ {2}} {2 sigma ^ {2}}} right)}

- это функция плотности вероятности для логнормальное распределение. Затем мы сравниваем значение AIC нормальной модели со значением AIC логарифмической нормальной модели.

Ненадежность программного обеспечения

Некоторое статистическое программное обеспечение^{[который? ]} будет сообщать значение AIC или максимальное значение функции логарифма правдоподобия, но сообщаемые значения не всегда верны. Как правило, любая некорректность связана с опущением константы в функции логарифмического правдоподобия. Например, функция логарифмического правдоподобия для $п$ независимый идентичный нормальные распределения является

{ displaystyle ln { mathcal {L}} ( mu, sigma) , = , - { frac {n} {2}} ln (2 pi) - { frac {n} { 2}} ln sigma ^ {2} - { frac {1} {2 sigma ^ {2}}} sum _ {i = 1} ^ {n} (x_ {i} - mu) ^ {2}}

- это функция, которая максимизируется при получении значения AIC. Некоторое программное обеспечение,^{[который? ]} однако опускает постоянный член $(п /2) ln (2 π)$ , и, таким образом, сообщает об ошибочных значениях максимума логарифма правдоподобия - и, следовательно, для AIC. Такие ошибки не имеют значения для сравнений на основе AIC, если у всех моделей есть свои остатки как нормально распределенные: потому что тогда ошибки нейтрализуются. В общем, однако, постоянный член необходимо включать в функцию логарифмического правдоподобия.^[25] Следовательно, перед использованием программного обеспечения для расчета AIC, как правило, рекомендуется выполнить несколько простых тестов программного обеспечения, чтобы убедиться, что значения функции верны.

Сравнение с другими методами выбора модели

Сравнение с BIC

Формула для Байесовский информационный критерий (BIC) аналогична формуле для AIC, но с другим штрафом за количество параметров. В случае AIC штраф составляет $2 k$ , тогда как с BIC штраф $ln (п) k$ .

Сравнение AIC / AICc и BIC дается Бернхэм и Андерсон (2002), §6.3-6.4), с последующими замечаниями Бернхэм и Андерсон (2004). Авторы показывают, что AIC / AICc можно получить в той же байесовской структуре, что и BIC, просто используя разные априорные вероятности. Однако в байесовском выводе BIC каждая модель-кандидат имеет априорную вероятность 1 /р (где р - количество моделей-кандидатов); такой вывод "не имеет смысла", потому что априор должен быть убывающей функцией $k$ . Кроме того, авторы представляют несколько исследований моделирования, которые показывают, что AICc имеет тенденцию иметь практические преимущества / преимущества по сравнению с BIC.

Некоторые исследователи отметили, что AIC и BIC подходят для разных задач. В частности, утверждается, что BIC подходит для выбора «истинной модели» (то есть процесса, который генерировал данные) из набора моделей-кандидатов, тогда как AIC не подходит. Чтобы быть конкретным, если «истинная модель» находится в наборе кандидатов, то BIC выберет «истинную модель» с вероятностью 1, как $п \to \infty$ ; напротив, когда отбор осуществляется через AIC, вероятность может быть меньше 1.^[26]^[27]^[28] Сторонники AIC утверждают, что этот вопрос несущественен, потому что «истинная модель» практически никогда не входит в набор кандидатов. Действительно, в статистике распространен афоризм, что "все модели неправильные "; следовательно," истинная модель "(то есть реальность) не может быть в наборе кандидатов.

Другое сравнение AIC и BIC дается Вриз (2012). Vrieze представляет исследование с помощью моделирования, которое позволяет «истинной модели» быть в наборе кандидатов (в отличие от практически всех реальных данных). Исследование моделирования демонстрирует, в частности, что AIC иногда выбирает гораздо лучшую модель, чем BIC, даже если «истинная модель» находится в наборе кандидатов. Причина в том, что для конечных $п$ , BIC может иметь существенный риск выбора очень плохой модели из набора кандидатов. Эта причина может возникнуть даже тогда, когда $п$ намного больше, чем $k$ ². С помощью AIC риск выбора очень плохой модели сводится к минимуму.

Если «истинной модели» нет в наборе кандидатов, то самое большее, на что мы можем надеяться, - это выбрать модель, которая наилучшим образом приближается к «истинной модели». AIC подходит для поиска наиболее приближенной модели при определенных допущениях.^[26]^[27]^[28] (Эти допущения включают, в частности, то, что аппроксимация выполняется с учетом потери информации.)

Сравнение AIC и BIC в контексте регресс дан кем-то Ян (2005). В регрессии AIC является асимптотически оптимальным для выбора модели с наименьшим среднеквадратичная ошибка, в предположении, что «истинная модель» не входит в набор кандидатов. BIC не является асимптотически оптимальным в предположении. Ян дополнительно показывает, что скорость, с которой AIC приближается к оптимуму, в определенном смысле является наилучшей из возможных.

Сравнение с перекрестной проверкой

Оставить-разовый перекрестная проверка асимптотически эквивалентен AIC для обычных моделей линейной регрессии.^[29] Асимптотическая эквивалентность AIC также имеет место для модели со смешанными эффектами.^[30]

Сравнение методом наименьших квадратов

Иногда каждая модель-кандидат предполагает, что остатки распределены в соответствии с независимыми идентичными нормальными распределениями (с нулевым средним). Это приводит к наименьших квадратов примерка модели.

По методу наименьших квадратов оценка максимального правдоподобия для дисперсии распределений остатков модели ${ displaystyle { hat { sigma}} ^ {2} = mathrm {RSS} / n}$ , где ${ displaystyle mathrm {RSS}}$ это остаточная сумма квадратов: ${ displaystyle textstyle mathrm {RSS} = sum _ {i = 1} ^ {n} (y_ {i} -f (x_ {i}; { hat { theta}})) ^ {2} }$ . Тогда максимальное значение функции логарифма правдоподобия модели равно

{ displaystyle - { frac {n} {2}} ln (2 pi) - { frac {n} {2}} ln ({ hat { sigma}} ^ {2}) - { frac {1} {2 { hat { sigma}} ^ {2}}} mathrm {RSS} , = , - { frac {n} {2}} ln ( mathrm {RSS} / n) + C}

-где $C$ является константой, не зависящей от модели и зависящей только от конкретных точек данных, т.е. она не изменяется, если данные не изменяются.

Это дает AIC = $2 k + п ln (RSS / п) - 2 C = 2 k + п ln (RSS) - (п ln (п) + 2 C)$ .^[31] Поскольку значимы только различия в AIC, постоянная $(п ln (п) + 2 C)$ можно игнорировать, что позволяет нам удобно взять AIC = $2 k + п ln (RSS)$ для сравнения моделей. Обратите внимание: если все модели имеют одинаковые $k$ , то выбор модели с минимальным AIC эквивалентен выбору модели с минимальным $RSS$ - что является обычной целью выбора модели на основе наименьших квадратов.

Сравнение с Mallows C_п

Mallows's C_п эквивалентно AIC в случае (гауссовского) линейная регрессия.^[32]

Смотрите также

Заметки

^ Макэлрит, Ричард (2016). Статистическое переосмысление: байесовский курс с примерами на R и Stan. CRC Press. п. 189. ISBN 978-1-4822-5344-3. AIC обеспечивает удивительно простую оценку среднего отклонения вне выборки.
^ Тэдди, Мэтт (2019). Наука о бизнес-данных: сочетание машинного обучения и экономики для оптимизации, автоматизации и ускорения принятия бизнес-решений. Нью-Йорк: Макгроу-Хилл. п. 90. ISBN 978-1-260-45277-8. AIC - это оценка отклонения OOS.
^ Бернхэм и Андерсон 2002, §2.2
^ ^а ^б Акаике 1974
^ Бернхэм и Андерсон 2002, §2.9.1, §6.4.5
^ Бернхэм и Андерсон 2002
^ Бернхэм и Андерсон 2002, §2.12.4
^ Мерто 2014
^ Бернхэм и Андерсон 2002, п. 99
^ Bandyopadhyay & Forster 2011
^ Сакамото, Исигуро и Китагава 1986
^ Маккуорри и Цай 1998
^ Клаескенс и Хьорт, 2008 г., §8.3
^ Жиро 2015, §2.9.1
^ Кавано 1997
^ Бернхэм и Андерсон 2002, §2.4
^ Бернхэм и Андерсон 2004
^ Бернхэм и Андерсон 2002, §7.4
^ ^а ^б Финдли и Парзен 1995
^ Акаике 1973
^ deLeeuw 1992
^ Ван Нордон Р., Махер Б., Нуццо Р. (2014) "100 лучших работ ", Природа, 514.
^ Источники, содержащие как "Akaike", так и "AIC" -в Google ученый.
^ Бернхэм и Андерсон 2002, п. 63
^ Бернхэм и Андерсон 2002, п. 82
^ ^а ^б Бернхэм и Андерсон 2002, §6.3-6.4
^ ^а ^б Вриз 2012
^ ^а ^б Aho, Derryberry & Peterson, 2014 г.
^ Камень 1977
^ Клык 2011
^ Бернхэм и Андерсон 2002, п. 63
^ Boisbunon et al. 2014 г.

использованная литература

Ах хорошо.; Derryberry, D .; Петерсон, Т. (2014), «Выбор модели для экологов: мировоззрение AIC и BIC», Экология, 95 (3): 631–636, Дои:10.1890/13-1452.1, PMID 24804445.
Акаике, Х. (1973), "Теория информации и расширение принципа максимального правдоподобия", Петров, Б.Н.; Чаки, Ф. (ред.), 2-й Международный симпозиум по теории информации, Цахкадзор, Армения, СССР, 2-8 сентября 1971 г., Будапешт: Akadémiai Kiadó, стр. 267–281. Переиздано в Коц, С.; Джонсон, Н. Л., ред. (1992), Прогресс в статистике, я, Springer-Verlag, стр. 610–624.
Акаике, Х. (1974), «Новый взгляд на идентификацию статистической модели», IEEE Transactions по автоматическому контролю, 19 (6): 716–723, Дои:10.1109 / TAC.1974.1100705, Г-Н 0423716.
Акаике, Х. (1985), «Предсказание и энтропия», в Atkinson, A.C .; Файнберг, С.Э. (ред.), Праздник статистики, Springer, стр. 1–24..
Bandyopadhyay, P. S .; Форстер, М. Р., ред. (2011), Философия статистики, Издательство Северной Голландии.
Boisbunon, A .; Canu, S .; Fourdrinier, D .; Strawderman, W .; Уэллс, М. Т. (2014), «Информационный критерий Акаике, C_п и оценки потерь для эллиптически симметричных распределений », Международный статистический обзор, 82 (3): 422–439, Дои:10.1111 / insr.12052.
Burnham, K. P .; Андерсон, Д. Р. (2002), Выбор модели и многомодельный вывод: практический теоретико-информационный подход (2-е изд.), Springer-Verlag.
Burnham, K. P .; Андерсон, Д. Р. (2004), «Многомодельный вывод: понимание AIC и BIC при выборе модели» (PDF), Социологические методы и исследования, 33: 261–304, Дои:10.1177/0049124104268644, S2CID 121861644.
Кавано, Дж. Э. (1997), "Объединение выводов Акаике и исправленных критериев информации Акаике", Письма о статистике и вероятности, 31 (2): 201–208, Дои:10.1016 / s0167-7152 (96) 00128-9.
Клаескенс, Г.; Хьорт, Н. Л. (2008), Выбор модели и усреднение модели, Издательство Кембриджского университета. [Заметка: AIC, определенный Claeskens & Hjort, является отрицанием стандартного определения, первоначально данного Акаике, а затем других авторов.]
деЛиу, Дж. (1992), «Введение в теорию информации Акаике (1973) и расширение принципа максимального правдоподобия» (PDF), в Коц, С.; Джонсон, Н. Л. (ред.), Прогресс в статистике I, Springer, стр. 599–609..
Клык, Исинь (2011), «Асимптотическая эквивалентность перекрестной проверки и информационных критериев Акаике в моделях со смешанными эффектами» (PDF), Журнал науки о данных, 9: 15–21.
Финдли, Д. Ф .; Парзен, Э. (1995), «Разговор с Хиротугу Акаике», Статистическая наука, 10: 104–117, Дои:10.1214 / сс / 1177010133.
Жиро, К. (2015), Введение в многомерную статистику, CRC Press.
Hurvich, C.M .; Цай, К.-Л. (1989), "Выбор модели регрессии и временных рядов в малых выборках", Биометрика, 76 (2): 297–307, Дои:10.1093 / biomet / 76.2.297.
Konishi, S .; Китагава, Г. (2008), Информационные критерии и статистическое моделирование, Springer.
McQuarrie, A. D. R .; Цай, К.-Л. (1998), Выбор модели регрессии и временных рядов, Всемирный научный.
Мурто, П. А. (2014), "В защиту п ценности", Экология, 95 (3): 611–617, Дои:10.1890/13-0590.1, PMID 24804441.
Сакамото, Й .; Исигуро, М .; Китагава, Г. (1986), Статистика критериев информации Акаике, Д. Рейдел.
Стоун, М. (1977), "Асимптотическая эквивалентность выбора модели путем перекрестной проверки и критерия Акаике", Журнал Королевского статистического общества, серия B, 39 (1): 44–47, Дои:10.1111 / j.2517-6161.1977.tb01603.x, JSTOR 2984877.
Сугиура, Н. (1978), "Дальнейший анализ данных с помощью информационного критерия Акаике и конечных поправок", Коммуникации в статистике - теория и методы, 7: 13–26, Дои:10.1080/03610927808827599.
Такеучи, К. (1976), "" [Распространение информационной статистики и критерий подгонки модели], Сури Кагаку [Математические науки] (по-японски), 153: 12–18, ISSN 0386-2240.
Вризе, С. И. (2012), «Выбор модели и психологическая теория: обсуждение различий между информационным критерием Акаике (AIC) и байесовским информационным критерием (BIC)», Психологические методы, 17 (2): 228–243, Дои:10.1037 / a0027127, ЧВК 3366160, PMID 22309957.
Ян, Ю. (2005), «Можно ли разделить сильные стороны AIC и BIC?», Биометрика, 92: 937–950, Дои:10.1093 / biomet / 92.4.937.

дальнейшее чтение

Акаике, Х. (21 декабря 1981 г.), "Классическое цитирование на этой неделе" (PDF), Текущее содержание Инженерия, технологии и прикладные науки, 12 (51): 42 [Хиротогу Акаике комментирует, как он попал в AIC]
Андерсон, Д. Р. (2008), Модельный вывод в науках о жизни, Springer
Арнольд, Т. В. (2010), «Неинформативные параметры и выбор модели с использованием информационного критерия Акаике», Журнал управления дикой природой, 74 (6): 1175–1178, Дои:10.1111 / j.1937-2817.2010.tb01236.x
Burnham, K. P .; Андерсон, Д. Р .; Huyvaert, K. P. (2011), «Выбор модели AIC и многомодельный вывод в поведенческой экологии» (PDF), Поведенческая экология и социобиология, 65: 23–35, Дои:10.1007 / s00265-010-1029-6, S2CID 3354490, заархивировано из оригинал (PDF) на 2017-08-09, получено 2018-05-04
Cavanaugh, J.E .; Нит, А. А. (2019), «Информационный критерий Акаике», Вычислительная статистика WIREs, 11 (3): e1460, Дои:10.1002 / wics.1460
Ing, C.-K .; Вэй, Ч.-З. (2005), "Выбор порядка для прогнозов одинаковой реализации в авторегрессионных процессах", Анналы статистики, 33 (5): 2423–2474, Дои:10.1214/009053605000000525
Ко, В .; Хьорт, Н. Л. (2019), «Информационный критерий Copula для выбора модели с двухэтапной оценкой максимального правдоподобия», Эконометрика и статистика, 12: 167–180, Дои:10.1016 / j.ecosta.2019.01.001
Ларский, С. (2012), Проблема выбора модели и научного реализма (PDF) (Тезис), Лондонская школа экономики
Пан, В. (2001), "Информационный критерий Акаике в обобщенных оценочных уравнениях", Биометрия, 57 (1): 120–125, Дои:10.1111 / j.0006-341X.2001.00120.x, PMID 11252586, S2CID 7862441
Парзен, Э.; Tanabe, K .; Китагава, Г., ред. (1998), "Избранные статьи Хиротугу Акаике", Серия Springer в статистике, Спрингер, Дои:10.1007/978-1-4612-1694-0, ISBN 978-1-4612-7248-9
Saefken, B .; Кнейб, Т .; van Waveren, C.-S .; Гревен, С. (2014), "Объединяющий подход к оценке условной информации Акаике в обобщенных линейных смешанных моделях", Электронный статистический журнал, 8: 201–225, Дои:10.1214 / 14-EJS881

[1] Макэлрит, Ричард (2016). Статистическое переосмысление: байесовский курс с примерами на R и Stan. CRC Press. п. 189. ISBN 978-1-4822-5344-3. AIC обеспечивает удивительно простую оценку среднего отклонения вне выборки.

[2] Тэдди, Мэтт (2019). Наука о бизнес-данных: сочетание машинного обучения и экономики для оптимизации, автоматизации и ускорения принятия бизнес-решений. Нью-Йорк: Макгроу-Хилл. п. 90. ISBN 978-1-260-45277-8. AIC - это оценка отклонения OOS.

[3] Бернхэм и Андерсон 2002, §2.2

[Akaiki1974-4] а ^б Акаике 1974

[5] Бернхэм и Андерсон 2002, §2.9.1, §6.4.5

[Burnham_2002-6] Бернхэм и Андерсон 2002

[7] Бернхэм и Андерсон 2002, §2.12.4

[8] Мерто 2014

[9] Бернхэм и Андерсон 2002, п. 99

[10] Bandyopadhyay & Forster 2011

[11] Сакамото, Исигуро и Китагава 1986

[12] Маккуорри и Цай 1998

[13] Клаескенс и Хьорт, 2008 г., §8.3

[14] Жиро 2015, §2.9.1

[Cavanaugh-15] Кавано 1997

[16] Бернхэм и Андерсон 2002, §2.4

[17] Бернхэм и Андерсон 2004

[18] Бернхэм и Андерсон 2002, §7.4

[FP95-19] а ^б Финдли и Парзен 1995

[20] Акаике 1973

[21] Leeuw 1992

[22] Ван Нордон Р., Махер Б., Нуццо Р. (2014) "100 лучших работ ", Природа, 514.

[23] Источники, содержащие как "Akaike", так и "AIC" -в Google ученый.

[24] Бернхэм и Андерсон 2002, п. 63

[25] Бернхэм и Андерсон 2002, п. 82

[BA6364-26] а ^б Бернхэм и Андерсон 2002, §6.3-6.4

[Vrieze-27] а ^б Вриз 2012

[Ahoetal-28] а ^б Aho, Derryberry & Peterson, 2014 г.

[29] Камень 1977

[30] Клык 2011

[31] Бернхэм и Андерсон 2002, п. 63

[32] Boisbunon et al. 2014 г.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]