Перекрестная проверка (статистика) - Cross-validation (statistics)

Схема k-кратной перекрестной проверки.

Перекрестная проверка,[1][2][3] иногда называют оценка вращения[4][5][6] или же вневыборочное тестирование, является любым из множества похожих проверка модели методы оценки того, как результаты статистический анализ будет обобщать к независимому набору данных. Он в основном используется в ситуациях, когда целью является прогноз, и нужно оценить, как точно а прогнозная модель выполним на практике. В задаче прогнозирования модели обычно предоставляется набор данных известные данные на котором выполняется обучение (набор обучающих данных), и набор данных неизвестные данные (или же впервые увидел данные), на которых тестируется модель (называемые набор данных проверки или же набор для тестирования).[7][8] Целью перекрестной проверки является проверка способности модели предсказывать новые данные, которые не использовались при ее оценке, чтобы отметить такие проблемы, как переоснащение или же критерий отбора[9] и дать представление о том, как модель будет обобщена на независимый набор данных (то есть неизвестный набор данных, например, из реальной проблемы).

Один раунд перекрестной проверки включает разделение а образец из данные в дополнительный подмножества, выполняя анализ на одном подмножестве (называемом Обучающий набор) и проверка анализа на другом подмножестве (называемом набор для проверки или же набор для тестирования). Уменьшить изменчивость, в большинстве методов выполняется несколько раундов перекрестной проверки с использованием разных разделов, а результаты валидации объединяются (например, усредняются) по циклам, чтобы дать оценку прогностической эффективности модели.

Таким образом, перекрестная проверка объединяет (средние) показатели фитнес в прогнозировании, чтобы получить более точную оценку эффективности прогнозирования модели.[10]

Мотивация

Предположим, у нас есть модель с одним или несколькими неизвестными параметры, и набор данных, к которому модель может быть приспособлена (набор обучающих данных). Процесс примерки оптимизирует параметры модели, чтобы модель максимально соответствовала обучающим данным. Если мы затем возьмем независимый образец данных проверки из того же численность населения как и там, где были взяты данные обучения, обычно оказывается, что модель не соответствует данным проверки, а также данным обучения. Размер этой разницы, вероятно, будет большим, особенно когда размер набора обучающих данных мал или когда количество параметров в модели велико. Перекрестная проверка - это способ оценить размер этого эффекта.

В линейной регрессии мы имеем настоящий значения ответа у1, ..., уп, и п п-размерный вектор ковариаты Икс1, ..., Иксп. Компоненты вектора Икся обозначаются Икся1, ..., Иксip. Если мы используем наименьших квадратов чтобы соответствовать функции в виде гиперплоскость ŷ = а + βТИкс к данным (Икся, уя) 1 ≤ я ≤ п, затем мы могли бы оценить соответствие, используя среднеквадратичная ошибка (MSE). MSE для заданных оценочных значений параметров а и β на обучающем наборе (Икся, уя) 1 ≤ я ≤ п определяется как

Если модель указана правильно, при умеренных предположениях можно показать, что ожидаемое значение МСЭ для обучающей выборки составляет (п − п − 1)/(п + п + 1) <1 ожидаемого значения MSE для набора проверки[11] (ожидаемое значение берется по распределению обучающих наборов). Таким образом, если мы подгоним модель и вычислим MSE на обучающем наборе, мы получим оптимистичный пристрастный оценка того, насколько хорошо модель будет соответствовать независимому набору данных. Эта смещенная оценка называется в выборке оценка соответствия, тогда как оценка перекрестной проверки является вне выборки оценивать.

Поскольку в линейной регрессии можно напрямую вычислить коэффициент (п − п − 1)/(п + п + 1), при котором обучающая MSE недооценивает проверку MSE в предположении, что спецификация модели действительна, перекрестная проверка может использоваться для проверки того, была ли модель переоборудованный, и в этом случае MSE в наборе для проверки существенно превысит свое ожидаемое значение. (Перекрестная проверка в контексте линейной регрессии также полезна тем, что ее можно использовать для выбора оптимального упорядоченный функция стоимости.) В большинстве других процедур регрессии (например, логистическая регрессия ) не существует простой формулы для вычисления ожидаемого соответствия вне выборки. Таким образом, перекрестная проверка - это общеприменимый способ прогнозирования производительности модели на недоступных данных с использованием числовых вычислений вместо теоретического анализа.

Типы

Можно выделить два типа перекрестной проверки: исчерпывающая и неполная перекрестная проверка.

Исчерпывающая перекрестная проверка

Методы исчерпывающей перекрестной проверки - это методы перекрестной проверки, которые изучают и тестируют все возможные способы разделения исходной выборки на обучающий и проверочный набор.

Перекрестная проверка без исключения

Покинуть-п-out перекрестная проверка (LpO CV) предполагает использование п наблюдения в качестве проверочного набора, а остальные наблюдения - как обучающего набора. Это повторяется для всех способов вырезать исходный образец на проверочном наборе п наблюдения и обучающий набор.[12]

Перекрестная проверка LpO требует обучения и проверки модели раз, где п - количество наблюдений в исходной выборке, а где это биномиальный коэффициент. За п > 1 и даже для умеренно больших п, LpO CV может стать вычислительно невыполнимым. Например, с п = 100 и п = 30,

Вариант перекрестной проверки LpO с p = 2, известный как перекрестная проверка исключения-пары, был рекомендован как почти беспристрастный метод оценки площади под Кривая ROC бинарных классификаторов.[13]

Перекрестная проверка без исключения

Иллюстрация перекрестной проверки с исключением по одному (LOOCV) при n = 8 наблюдениях. Всего будет обучено и протестировано 8 моделей.

Покинуть-один-out перекрестная проверка (LOOCV) является частным случаем отпуска-п-out перекрестная проверка с п = 1, процесс похож на складной нож; однако при перекрестной проверке статистику вычисляют по оставшимся образцам, а при складывании складных ножей вычисляют статистику только по сохраненным образцам.

Перекрестная проверка LOO требует меньше времени вычислений, чем перекрестная проверка LpO, потому что есть только проходит, а не . Тем не мение, проходы могут по-прежнему требовать довольно большого времени вычислений, и в этом случае другие подходы, такие как k-кратная перекрестная проверка, могут быть более подходящими.[14]

Псевдокод-алгоритм:

Вход:

x, {вектор длины N со значениями x входящих точек}

y, {вектор длины N со значениями y ожидаемого результата}

interpolate (x_in, y_in, x_out), {возвращает оценку для точки x_out после обучения модели с парами x_in-y_in}

Выход:

err, {оценка ошибки предсказания}

Шаги:

 err ← 0 for i ← 1, ..., N do // определить подмножества перекрестной проверки x_in ← (x [1], ..., x [i - 1], x [i + 1], .. ., x [N]) y_in ← (y [1], ..., y [i - 1], y [i + 1], ..., y [N]) x_out ← x [i] y_out ← интерполировать (x_in, y_in, x_out) err ← err + (y [i] - y_out) ^ 2 end for err ← err / N

Неисчерпывающая перекрестная проверка

Неисчерпывающие методы перекрестной проверки не вычисляют все способы разделения исходной выборки. Эти методы являются приближениями отпуска-п-out перекрестная проверка.

k-кратная перекрестная проверка

Иллюстрация k-кратной перекрестной проверки при n = 12 наблюдениях и k = 3. После перетасовки данных в общей сложности будут обучены и протестированы 3 модели.

В k-кратная перекрестная проверка, исходная выборка случайным образом разбивается на k равные подвыборки. Из k подвыборки, одна подвыборка сохраняется в качестве данных валидации для тестирования модели, а остальные k - 1 подвыборка используется в качестве обучающих данных. Затем процесс перекрестной проверки повторяется. k раз, с каждым из k подвыборки использовались ровно один раз в качестве данных проверки. В k затем результаты можно усреднить для получения единой оценки. Преимущество этого метода перед повторной случайной подвыборкой (см. Ниже) состоит в том, что все наблюдения используются как для обучения, так и для проверки, и каждое наблюдение используется для проверки только один раз. Обычно используется 10-кратная перекрестная проверка,[15] а вообще k остается нефиксированным параметром.

Например, установка k = 2 приводит к двукратной перекрестной проверке. При двукратной перекрестной проверке мы случайным образом разбиваем набор данных на два набора. d0 и d1, так что оба набора имеют равный размер (обычно это реализуется путем перетасовки массива данных и последующего разделения его на два). Затем мы тренируемся d0 и проверить на d1с последующим обучением d1 и проверка наd0.

Когда k = п (количество наблюдений), k-кратная перекрестная проверка эквивалентна перекрестной проверке с исключением по одному.[16]

В стратифицированный k-кратная перекрестная проверка, разделы выбираются так, чтобы среднее значение ответа было примерно одинаковым во всех разделах. В случае двоичной классификации это означает, что каждый раздел содержит примерно одинаковые пропорции двух типов меток классов.

В повторяется перекрестная проверка: данные случайным образом разбиваются на k перегородки несколько раз. Таким образом, характеристики модели могут быть усреднены по нескольким прогонам, но на практике это редко бывает желательно.[17]

Метод удержания

В методе удержания мы случайным образом назначаем точки данных двум наборам. d0 и d1, обычно называемые обучающим набором и тестовым набором соответственно. Размер каждого из наборов произвольный, хотя обычно набор тестов меньше, чем обучающий набор. Затем мы тренируемся (строим модель) на d0 и протестировать (оценить его работоспособность) на d1.

При типичной перекрестной проверке результаты нескольких прогонов тестирования модели усредняются вместе; Напротив, метод удержания изолированно включает в себя один проход. Его следует использовать с осторожностью, потому что без такого усреднения нескольких прогонов можно получить очень вводящие в заблуждение результаты. Индикатор точности прогнозов (F* ) будет иметь тенденцию быть нестабильным, поскольку он не будет сглажен несколькими итерациями (см. ниже). Точно так же индикаторы конкретной роли, которую играют различные переменные-предикторы (например, значения коэффициентов регрессии), будут иметь тенденцию быть нестабильными.

Хотя метод удержания можно сформулировать как «простейший вид перекрестной проверки»,[18] вместо этого многие источники классифицируют задержку как тип простой проверки, а не как простую или вырожденную форму перекрестной проверки.[5][19]

Повторная проверка случайной подвыборки

Этот метод, также известный как Монте-Карло перекрестная проверка,[20] создает несколько случайных разделов набора данных на данные обучения и проверки.[21] Для каждого такого разбиения модель соответствует обучающим данным, и точность прогнозов оценивается с использованием данных проверки. Затем результаты усредняются по разбиениям. Преимущество этого метода (над k-кратная перекрестная проверка) заключается в том, что пропорция разделения обучения / проверки не зависит от количества итераций (то есть количества разделов). Недостатком этого метода является то, что некоторые наблюдения могут никогда не быть выбраны в подвыборке проверки, тогда как другие могут быть выбраны более одного раза. Другими словами, подмножества проверки могут перекрываться. Этот метод также демонстрирует Монте-Карло вариация, что означает, что результаты будут отличаться, если анализ будет повторяться с разными случайными разбиениями.

По мере того, как количество случайных разделений приближается к бесконечности, результат повторной проверки случайной подвыборки имеет тенденцию к результату перекрестной проверки без исключения.

В стратифицированном варианте этого подхода случайные выборки генерируются таким образом, чтобы среднее значение ответа (т.е. зависимая переменная в регрессии) было равным в обучающей и тестовой выборках. Это особенно полезно, если ответы дихотомический с несбалансированным представлением двух значений ответа в данных.

Вложенная перекрестная проверка

Когда перекрестная проверка используется одновременно для выбора лучшего набора гиперпараметры а для оценки ошибок (и оценки способности обобщения) требуется вложенная перекрестная проверка. Есть много вариантов. Можно выделить как минимум два варианта:

k * l-кратная перекрестная проверка

Это действительно вложенный вариант (например, используемый cross_val_score в scikit-learn[22]), который содержит внешний цикл k складки и внутренняя петля л складки. Общий набор данных разделен на k наборы. Один за другим набор выбирается как (внешний) тестовый набор, и k - 1 другие наборы объединяются в соответствующий внешний обучающий набор. Это повторяется для каждого из k наборы. Каждый внешний обучающий набор далее подразделяется на л наборы. Один за другим набор выбирается как набор внутренних тестов (валидации) и л - 1 другие наборы объединяются в соответствующий внутренний обучающий набор. Это повторяется для каждого из л наборы. Внутренние обучающие наборы используются для соответствия параметрам модели, в то время как внешний набор тестов используется в качестве набора для проверки, чтобы обеспечить беспристрастную оценку соответствия модели. Обычно это повторяется для множества разных гиперпараметров (или даже для разных типов моделей), и набор проверки используется для определения наилучшего набора гиперпараметров (и типа модели) для этого внутреннего обучающего набора. После этого новая модель соответствует всему внешнему обучающему набору, используя лучший набор гиперпараметров из внутренней перекрестной проверки. Затем производительность этой модели оценивается с помощью внешнего набора для испытаний.

k-кратная перекрестная проверка с проверкой и набором тестов

Это тип k * l-кратной перекрестной проверки, когда л = k - 1. Одна k-кратная перекрестная проверка используется как с набор для проверки и тестирования. Общий набор данных разделен на k наборы. Один за другим набор выбирается в качестве тестового набора. Затем один за другим один из оставшихся наборов используется как набор для проверки, а другой k - 2 набора используются как обучающие, пока не будут оценены все возможные комбинации. Подобно k * l-кратной перекрестной проверке, обучающий набор используется для подгонки модели, а набор проверки используется для оценки модели для каждого из наборов гиперпараметров. Наконец, для выбранного набора параметров тестовый набор используется для оценки модели с наилучшим набором параметров. Здесь возможны два варианта: либо оценка модели, которая была обучена на обучающем наборе, либо оценка новой модели, подходящей для комбинации поезда и проверочного набора.

Меры соответствия

Цель перекрестной проверки - оценить ожидаемый уровень соответствия модели набору данных, который не зависит от данных, которые использовались для обучения модели. Его можно использовать для оценки любой количественной меры соответствия, которая подходит для данных и модели. Например, для двоичная классификация проблем, каждый случай в наборе проверки либо предсказан правильно, либо неверно. В этой ситуации частота ошибок классификации может быть использована для резюмирования соответствия, хотя другие меры, такие как положительная прогностическая ценность также может быть использован. Когда прогнозируемое значение непрерывно распределяется, среднеквадратичная ошибка, среднеквадратичная ошибка или же среднее абсолютное отклонение может использоваться для обобщения ошибок.

Использование предыдущей информации

Когда пользователи применяют перекрестную проверку для выбора хорошей конфигурации , тогда они могут захотеть сбалансировать выбор с перекрестной проверкой со своей собственной оценкой конфигурации. Таким образом, они могут попытаться противостоять волатильности перекрестной проверки при небольшом размере выборки и включить соответствующую информацию из предыдущих исследований. Например, при комбинированном прогнозировании перекрестная проверка может применяться для оценки весов, присваиваемых каждому прогнозу. Поскольку простой равновзвешенный прогноз сложно превзойти, может быть добавлен штраф за отклонение от равных весов.[23] Или, если для присвоения индивидуальных весов наблюдениям применяется перекрестная проверка, то можно штрафовать отклонения от равных весов, чтобы избежать потери потенциально релевантной информации.[23] Hoornweg (2018) показывает, как параметр настройки можно определить так, чтобы пользователь мог интуитивно балансировать между точностью перекрестной проверки и простотой использования эталонного параметра что определяется пользователем.

Если обозначает кандидат конфигурации, который может быть выбран, затем функция потерь который должен быть минимизирован, можно определить как

Относительная точность может быть определена как , так что среднеквадратичная ошибка кандидата делается относительно указанного пользователем . Термин относительной простоты измеряет количество, которое отклоняется от относительно максимальной величины отклонения от . Соответственно, относительную простоту можно определить как , куда соответствует значение с максимально допустимым отклонением от . С , пользователь определяет, насколько сильно влияние ссылочного параметра относительно перекрестной проверки.

Можно добавить условия относительной простоты для нескольких конфигураций указав функцию потерь как

Хорнвег (2018) показывает, что функция потерь с таким компромиссом между точностью и простотой также может использоваться для интуитивно понятного определения оценщики усадки как (адаптивный) лассо и Байесовский / регресс гребня.[23] Нажать на лассо для примера.

Статистические свойства

Предположим, мы выбираем меру соответствия F, и используйте перекрестную проверку для получения оценки F* ожидаемого соответствия EF модели в независимый набор данных, взятый из той же совокупности, что и обучающие данные. Если мы представим себе выборку нескольких независимых обучающих наборов, следующих одному и тому же распределению, результирующие значения для F* будет отличаться. Статистические свойства F* результат этого изменения.

Оценщик перекрестной проверки F* почти беспристрастен к EF.[24][нужна цитата ] Причина, по которой он слегка смещен, заключается в том, что обучающий набор при перекрестной проверке немного меньше, чем фактический набор данных (например, для LOOCV размер обучающего набора равен п - 1 когда есть п наблюдаемые случаи). Практически во всех ситуациях влияние этого смещения будет консервативным, поскольку предполагаемое соответствие будет слегка смещено в направлении, предполагающем более плохое соответствие. На практике это предубеждение редко вызывает беспокойство.

Дисперсия F* может быть большим.[25][26] По этой причине, если две статистические процедуры сравниваются на основе результатов перекрестной проверки, процедура с лучшей оцененной производительностью может на самом деле не быть лучшей из двух процедур (т.е. она может не иметь лучшего значения EF). Некоторый прогресс был достигнут в строительстве доверительные интервалы вокруг оценок перекрестной проверки,[25] но это считается сложной проблемой.

Вычислительные проблемы

Большинство форм перекрестной проверки несложно реализовать, пока доступна реализация изучаемого метода прогнозирования. В частности, метод прогнозирования может быть «черным ящиком» - нет необходимости иметь доступ к внутренностям его реализации. Если обучение методу прогнозирования является дорогостоящим, перекрестная проверка может быть очень медленной, поскольку обучение необходимо проводить повторно. В некоторых случаях, например, наименьших квадратов и регрессия ядра перекрестную проверку можно значительно ускорить, предварительно вычислив определенные значения, которые повторно требуются в процессе обучения, или с помощью быстрых «правил обновления», таких как Формула Шермана – Моррисона. Однако нужно быть осторожным, чтобы сохранить "полное ослепление" набора проверки из процедуры обучения, иначе может возникнуть смещение. Ярким примером ускорения перекрестной проверки является линейная регрессия, где результаты перекрестной проверки имеют выражение в закрытой форме известный как сумма квадратов остаточной ошибки предсказания (НАЖМИТЕ ).

Ограничения и неправильное использование

Перекрестная проверка дает значимые результаты только в том случае, если набор проверки и обучающий набор взяты из одной и той же популяции, и только если человеческие предубеждения контролируются.

Во многих приложениях прогнозного моделирования структура изучаемой системы со временем эволюционирует (т. Е. Является «нестационарной»). Оба они могут привести к систематическим различиям между наборами для обучения и проверки. Например, если модель для прогнозирование стоимости акций обучен на данных за определенный пятилетний период, нереально рассматривать последующий пятилетний период как выборку из той же совокупности. В качестве другого примера предположим, что разработана модель для прогнозирования индивидуального риска поставлен диагноз с определенным заболеванием в течение следующего года. Если модель обучается с использованием данных из исследования с участием только определенной группы населения (например, молодых людей или мужчин), но затем применяется к общей популяции, результаты перекрестной проверки из обучающей выборки могут сильно отличаться от фактических прогностических характеристик. .

Во многих приложениях модели также могут быть указаны неправильно и изменяться в зависимости от предубеждений моделиста и / или произвольного выбора. Когда это происходит, может возникнуть иллюзия, что система изменяется во внешних выборках, тогда как причина в том, что модель пропустила критический предсказатель и / или включила неверный предсказатель. Новое свидетельство состоит в том, что перекрестная проверка сама по себе не очень хорошо предсказывает внешнюю валидность, тогда как форма экспериментальной валидации, известная как выборка подкачки, которая контролирует человеческую предвзятость, может гораздо лучше предсказывать внешнюю валидность.[27] Как определено в этом крупном исследовании MAQC-II по 30 000 моделей, выборка подкачки включает перекрестную проверку в том смысле, что прогнозы проверяются на независимых выборках для обучения и проверки. Тем не менее, модели также разрабатываются на основе этих независимых выборок и моделистами, которые не знают друг друга. Когда существует несоответствие в этих моделях, разработанных для этих переставленных обучающих и проверочных выборок, что случается довольно часто, MAQC-II показывает, что это будет гораздо более предсказуемо для плохой внешней предсказательной валидности, чем традиционная перекрестная проверка.

Причина успеха перестановки выборки - это встроенный контроль человеческих предубеждений при построении модели. Помимо чрезмерной веры в прогнозы, которые могут различаться у разных разработчиков и приводить к плохой внешней валидности из-за этих сбивающих с толку эффектов создателей моделей, есть еще несколько способов неправильного использования перекрестной проверки:

  • Выполнив первоначальный анализ для выявления наиболее информативных Особенности с использованием всего набора данных - если для процедуры моделирования требуется выбор функций или настройка модели, это необходимо повторить для каждого обучающего набора. В противном случае прогнозы обязательно будут смещены в сторону повышения.[28] Если перекрестная проверка используется для решения, какие функции использовать, внутренняя перекрестная проверка для выполнения отбор признаков на каждом обучающем наборе должен быть выполнен.[29]
  • Если разрешить включение некоторых обучающих данных в набор тестов - это может произойти из-за «двойникования» в наборе данных, когда в наборе данных присутствуют некоторые точно идентичные или почти идентичные образцы. В некоторой степени твиннинг всегда имеет место даже в совершенно независимых выборках для обучения и проверки. Это связано с тем, что некоторые из наблюдений обучающей выборки будут иметь почти идентичные значения предикторов, что и наблюдения проверочной выборки. И некоторые из них будут коррелировать с целью на уровне выше вероятности в одном и том же направлении как при обучении, так и при проверке, когда они фактически управляются ошибочными предикторами с плохой внешней достоверностью. Если такая перекрестно проверенная модель выбрана из k-складной набор, человек Подтверждение смещения будет работать и определит, что такая модель прошла валидацию. Вот почему традиционная перекрестная проверка должна быть дополнена средствами контроля человеческой предвзятости и искаженной спецификации модели, такой как выборка подстановки и проспективные исследования.

Перекрестная проверка для моделей временных рядов

Поскольку порядок данных важен, перекрестная проверка может быть проблематичной для Временные ряды модели. Более подходящим подходом может быть использование скользящей перекрестной проверки.

Однако если производительность описывается одним сводная статистика, вполне возможно, что подход, описанный Политисом и Романо как стационарный бутстрап[30] заработает. Статистика начальной загрузки должна принимать интервал временного ряда и возвращать итоговую статистику по нему. Вызов стационарного бутстрапа должен указывать соответствующую среднюю длину интервала.

Приложения

Перекрестная проверка может использоваться для сравнения производительности различных процедур прогнозного моделирования. Например, предположим, что нас интересует оптическое распознавание символов, и мы рассматриваем возможность использования либо опорные векторные машины (SVM) или k-ближайшие соседи (KNN), чтобы предсказать истинный персонаж по изображению рукописного персонажа. Используя перекрестную проверку, мы могли бы объективно сравнить эти два метода с точки зрения их соответствующих долей ошибочно классифицированных символов. Если бы мы просто сравнили методы, основанные на их частотах ошибок в выборке, метод KNN, вероятно, оказался бы более эффективным, поскольку он более гибкий и, следовательно, более подвержен ошибкам. переоснащение[нужна цитата ] по сравнению с методом SVM.

Перекрестная проверка также может использоваться в выбор переменных.[31] Предположим, мы используем выражение уровни 20 белки предсказать, будет ли рак пациент ответит на препарат, средство, медикамент. Практическая цель - определить, какое подмножество из 20 характеристик следует использовать для создания наилучшей модели прогнозирования. Для большинства процедур моделирования, если мы сравним подмножества признаков, используя частоту ошибок в выборке, наилучшая производительность будет достигнута при использовании всех 20 функций. Однако при перекрестной проверке модель с наилучшим соответствием обычно будет включать только подмножество функций, которые считаются действительно информативными.

Недавнее развитие медицинской статистики - ее использование в метаанализе. Он составляет основу валидационной статистики Vn, которая используется для проверки статистической достоверности сводных оценок метаанализа.[32] Он также использовался в более традиционном смысле в мета-анализе для оценки вероятной ошибки предсказания результатов мета-анализа.[33]

Смотрите также

Примечания и ссылки

  1. ^ Аллен, Дэвид М (1974). «Взаимосвязь между выбором переменных и накоплением данных и методом прогнозирования». Технометрика. 16 (1): 125–127. Дои:10.2307/1267500. JSTOR  1267500.
  2. ^ Стоун, М. (1974). «Перекрестный выбор и оценка статистических прогнозов». Журнал Королевского статистического общества: серия B (методологическая). 36 (2): 111–147. Дои:10.1111 / j.2517-6161.1974.tb00994.x.
  3. ^ Стоун, М. (1977). «Асимптотическая эквивалентность выбора модели перекрестной проверкой и критерием Акаике». Журнал Королевского статистического общества: серия B (методологическая). 39 (1): 44–47. JSTOR  2984877.}
  4. ^ Гейссер, Сеймур (1993). Прогнозный вывод. Нью-Йорк, штат Нью-Йорк: Чепмен и Холл. ISBN  978-0-412-03471-8.
  5. ^ а б Кохави, Рон (1995). «Исследование перекрестной проверки и начальной загрузки для оценки точности и выбора модели». Труды четырнадцатой международной совместной конференции по искусственному интеллекту. Сан-Матео, Калифорния: Морган Кауфманн. 2 (12): 1137–1143. CiteSeerX  10.1.1.48.529.
  6. ^ Devijver, Pierre A .; Киттлер, Йозеф (1982). Распознавание образов: статистический подход. Лондон, Великобритания: Прентис-Холл. ISBN  0-13-654236-0.
  7. ^ Галкин, Александр (28 ноября 2011 г.). "В чем разница между набором тестов и набором проверки?". Получено 10 октября 2018.
  8. ^ «Вопрос новичка: не знаете, что такое поезд, данные проверки и тестирования!». Архивировано 14 марта 2015 года.. Получено 2013-11-14.CS1 maint: BOT: статус исходного URL-адреса неизвестен (связь)
  9. ^ Cawley, Gavin C .; Талбот, Никола Л.С. (2010). «О чрезмерной подгонке при выборе модели и последующем предвзятом выборе при оценке производительности» (PDF). 11. Журнал исследований машинного обучения: 2079–2107. Цитировать журнал требует | журнал = (помощь)
  10. ^ Гроссман, Роберт; Сени, Джованни; Старейшина, Джон; Агарвал, Нитин; Лю, Хуан (2010). «Ансамблевые методы интеллектуального анализа данных: повышение точности за счет комбинирования прогнозов». Обобщающие лекции по интеллектуальному анализу данных и открытию знаний. Морган и Клейпул. 2: 1–126. Дои:10.2200 / S00240ED1V01Y200912DMK002.
  11. ^ Триппа, Лоренцо; Валдрон, Леви; Хаттенхауэр, Кертис; Пармиджани, Джованни (март 2015 г.). «Байесовское непараметрическое перекрестное исследование методов прогнозирования». Летопись прикладной статистики. 9 (1): 402–428. arXiv:1506.00474. Bibcode:2015arXiv150600474T. Дои:10.1214 / 14-AOAS798. ISSN  1932-6157.
  12. ^ Селисс, Ален (1 октября 2014 г.). «Оптимальная перекрестная проверка в оценке плотности с $ L ^ {2} $ - потерями». Анналы статистики. 42 (5): 1879–1910. arXiv:0811.0802. Дои:10.1214 / 14-AOS1240. ISSN  0090-5364.
  13. ^ Airola, A .; Пахиккала, Т .; Waegeman, W .; Де Баэтс, Бернар; Салакоски, Т. (01.04.2011). «Экспериментальное сравнение методов перекрестной проверки для оценки площади под кривой ROC». Вычислительная статистика и анализ данных. 55 (4): 1828–1844. Дои:10.1016 / j.csda.2010.11.018.
  14. ^ Молинаро, А. М .; Саймон, Р .; Пфайффер, Р. М. (1 августа 2005 г.). «Оценка погрешности прогноза: сравнение методов передискретизации». Биоинформатика. 21 (15): 3301–3307. Дои:10.1093 / биоинформатика / bti499. ISSN  1367-4803. PMID  15905277.
  15. ^ Маклахлан, Джеффри Дж .; До, Ким Ан; Амбруаз, Кристоф (2004). Анализ данных экспрессии генов микрочипов. Вайли.
  16. ^ «Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование. 2-е издание». web.stanford.edu. Получено 2019-04-04.
  17. ^ Ванвинкелен, Гитте (2 октября 2019 г.). Об оценке точности модели с помощью повторной перекрестной проверки. lirias.kuleuven. С. 39–44. ISBN  9789461970442.
  18. ^ "Перекрестная проверка". Получено 11 ноября 2012.
  19. ^ Арлот, Сильвен; Селисс, Ален (2010). «Обзор процедур перекрестной проверки для выбора модели». Статистические исследования. 4: 40–79. arXiv:0907.4728. Дои:10.1214 / 09-SS054. Вкратце, CV состоит в усреднении нескольких задержек оценки риска, соответствующих различным разделам данных.
  20. ^ Дубицкий, Вернер; Гранцов, Мартин; Беррар, Даниэль (2007). Основы интеллектуального анализа данных в геномике и протеомике. Springer Science & Business Media. п. 178.
  21. ^ Кун, Макс; Джонсон, Кьелл (2013). Прикладное прогнозное моделирование. Нью-Йорк, штат Нью-Йорк: Springer New York. Дои:10.1007/978-1-4614-6849-3. ISBN  9781461468486.
  22. ^ «Вложенная и невложенная перекрестная проверка». Получено 19 февраля 2019.
  23. ^ а б c Хорнвег, Виктор (2018). Наука: на рассмотрении. Hoornweg Press. ISBN  978-90-829188-0-9.
  24. ^ Кристенсен, Рональд (21 мая 2015 г.). «Мысли о прогнозировании и перекрестной проверке» (PDF). Департамент математики и статистики Университета Нью-Мексико. Получено 31 мая, 2017.
  25. ^ а б Эфрон, Брэдли; Тибширани, Роберт (1997). «Улучшения перекрестной проверки: метод .632 + Bootstrap». Журнал Американской статистической ассоциации. 92 (438): 548–560. Дои:10.2307/2965703. JSTOR  2965703. МИСТЕР  1467848.
  26. ^ Камень, Мервин (1977). «Асимптотика за и против перекрестной проверки». Биометрика. 64 (1): 29–35. Дои:10.1093 / biomet / 64.1.29. JSTOR  2335766. МИСТЕР  0474601.
  27. ^ Консорциум, MAQC (2010). «Контроль качества микрочипов (MAQC) -II, исследование общих практик разработки и проверки прогнозных моделей на основе микрочипов». Природа Биотехнологии. Лондон: Издательская группа Nature. 28 (8): 827–838. Дои:10.1038 / nbt.1665. ЧВК  3315840. PMID  20676074.
  28. ^ Bermingham, Mairead L .; Понг-Вонг, Рикардо; Спилиопулу, Афина; Хейворд, Кэролайн; Рудан, Игорь; Кэмпбелл, Гарри; Райт, Алан Ф .; Уилсон, Джеймс Ф .; Агаков, Феликс; Наварро, По; Хейли, Крис С. (2015). «Применение многомерного отбора признаков: оценка для геномного прогнозирования у человека». Sci. Rep. 5: 10312. Bibcode:2015НатСР ... 510312Б. Дои:10.1038 / srep10312. ЧВК  4437376. PMID  25988841.
  29. ^ Варма, Судхир; Саймон, Ричард (2006). «Предвзятость в оценке ошибок при использовании перекрестной проверки для выбора модели». BMC Bioinformatics. 7: 91. Дои:10.1186/1471-2105-7-91. ЧВК  1397873. PMID  16504092.
  30. ^ Politis, Dimitris N .; Романо, Джозеф П. (1994). «Стационарный бутстрап». Журнал Американской статистической ассоциации. 89 (428): 1303–1313. Дои:10.1080/01621459.1994.10476870.
  31. ^ Пикард, Ричард; Кук, Деннис (1984). «Перекрестная проверка регрессионных моделей». Журнал Американской статистической ассоциации. 79 (387): 575–583. Дои:10.2307/2288403. JSTOR  2288403.
  32. ^ Уиллис Б.Х., Райли Р.Д. (2017). «Измерение статистической достоверности сводных результатов мета-анализа и мета-регрессии для использования в клинической практике». Статистика в медицине. 36 (21): 3283–3301. Дои:10.1002 / sim.7372. ЧВК  5575530. PMID  28620945.
  33. ^ Райли Р.Д., Ахмед И., Дебрей Т.П., Уиллис Б.Х., Нордзей П., Хиггинс Дж. П., Дикс Дж. Дж. (2015). «Обобщение и проверка результатов точности тестов в нескольких исследованиях для использования в клинической практике». Статистика в медицине. 34 (13): 2081–2103. Дои:10.1002 / sim.6471. ЧВК  4973708. PMID  25800943.