Стандартная ошибка - Standard error

Для значения, полученного с помощью несмещенного нормально распределенный ошибка, приведенное выше показывает долю выборок, которая будет находиться между 0, 1, 2 и 3 стандартными отклонениями выше и ниже фактического значения.

В стандартная ошибка (SE)^[1]^[2] из статистика (обычно оценка параметр ) это стандартное отклонение своего выборочное распределение^[3] или оценка этого стандартного отклонения. Если статистика является выборочным средним, она называется стандартная ошибка среднего (SEM).^[2]

В выборочное распределение среднего значения совокупности генерируется путем повторного отбора проб и регистрации полученных средних значений. Это формирует распределение различных средств, и это распределение имеет свои собственные иметь в виду и отклонение. Математически дисперсия полученного распределения выборки равна дисперсии генеральной совокупности, деленной на размер выборки. Это связано с тем, что по мере увеличения размера выборки средние значения выборки сгруппируются ближе к среднему значению генеральной совокупности.

Следовательно, соотношение между стандартной ошибкой среднего и стандартным отклонением таково, что для данного размера выборки стандартная ошибка среднего равна стандартному отклонению, деленному на квадратный корень размера выборки.^[2] Другими словами, стандартная ошибка среднего - это мера разброса выборочных средних вокруг среднего по генеральной совокупности.

В регрессивный анализ, термин "стандартная ошибка" относится либо к квадратному корню из приведенная статистика хи-квадрат, или стандартная ошибка для определенного коэффициента регрессии (как, например, доверительные интервалы ).

Стандартная ошибка среднего

численность населения

Стандартная ошибка среднего (SEM) может быть выражена как:^[2]

{ displaystyle { sigma} _ { bar {x}} = { frac { sigma} { sqrt {n}}}}

куда

σ это стандартное отклонение населения.

п - размер (количество наблюдений) выборки.

Оценивать

Поскольку стандартное отклонение населения редко известно, стандартная ошибка среднего обычно оценивается как стандартное отклонение выборки деленное на квадратный корень из размера выборки (при условии статистической независимости значений в выборке).

{ displaystyle { sigma} _ { bar {x}} приблизительно { frac {s} { sqrt {n}}}}

куда

s это стандартное отклонение выборки (т. е. основанная на выборке оценка стандартного отклонения генеральной совокупности), и

п - размер (количество наблюдений) выборки.

Образец

В тех контекстах, где стандартная ошибка среднего значения определяется не как стандартное отклонение выборки, а как его оценка, это оценка, обычно указываемая как ее значение. Таким образом, стандартное отклонение среднего значения часто определяется как:

{ displaystyle operatorname {s} _ { bar {x}} = { frac {s} { sqrt {n}}}}

Примечание: стандартная ошибка и стандартное отклонение малых выборок, как правило, систематически занижают стандартную ошибку генеральной совокупности и стандартное отклонение. В частности, стандартная ошибка среднего составляет предвзятый оценщик стандартной ошибки генеральной совокупности. При n = 2 занижение составляет около 25%, но для n = 6 занижение составляет всего 5%. Гурланд и Трипати (1971) предлагают поправку и уравнение для этого эффекта.^[4] Сокал и Рольф (1981) приводят уравнение поправочного коэффициента для небольших выборокп < 20.^[5] Видеть объективная оценка стандартного отклонения для дальнейшего обсуждения.

Практический результат: Для уменьшения неопределенности в оценке среднего значения в два раза требуется получить в четыре раза больше наблюдений в выборке; уменьшение стандартной ошибки в десять раз требует в сто раз больше наблюдений.

Производные

Формула может быть получена из отклонение суммы независимых случайных величин.^[6]

Если ${ displaystyle x_ {1}, x_ {2}, ldots, x_ {n}}$ находятся ${ displaystyle n}$ независимые наблюдения от популяции со средним ${ displaystyle mu}$ и стандартное отклонение ${ displaystyle sigma}$ , то отклонение от общего ${ Displaystyle T = (x_ {1} + x_ {2} + cdots + x_ {n})}$ является ${ displaystyle n sigma ^ {2}.}$
Дисперсия ${ displaystyle T / n}$ (значение ${ displaystyle { bar {x}}}$ ) должно быть ${ displaystyle n left ({ frac { sigma ^ {2}} {n ^ {2}}} right) = { frac { sigma ^ {2}} {n}}.}$ В качестве альтернативы, ${ displaystyle operatorname {Var} left ({ frac {T} {n}} right) = { frac {1} {n ^ {2}}} operatorname {Var} (T) = { frac {1} {n ^ {2}}} n sigma ^ {2} = { frac { sigma ^ {2}} {n}}.}.$
Следовательно, стандартное отклонение ${ displaystyle T / n}$ должно быть ${ displaystyle sigma / { sqrt {n}}}$ .

Независимые и одинаково распределенные случайные величины со случайным размером выборки

Бывают случаи, когда образец берут, не зная заранее, сколько наблюдений будет приемлемым по тому или иному критерию. В таких случаях размер выборки ${ displaystyle N}$ случайная величина, вариация которой добавляет к вариации ${ displaystyle X}$ так что,

{ Displaystyle OperatorName {Var} (T) = OperatorName {E} (N) Operatorname {Var} (X) + Operatorname {Var} (N) { big (} Operatorname {E} (X) { big)} ^ {2}}

^[7]

Если ${ displaystyle N}$ имеет распределение Пуассона, тогда ${ Displaystyle OperatorName {E} (N) = OperatorName {Var} (N)}$ с оценщиком ${ displaystyle N = n}$ . Следовательно, оценка ${ displaystyle operatorname {Var} (T)}$ становится ${ displaystyle nS_ {X} ^ {2} + n { bar {X}} ^ {2}}$ , приводя к следующей формуле для стандартной ошибки:

{ displaystyle operatorname {Standard ~ Error} ({ bar {X}}) = { sqrt { frac {S_ {X} ^ {2} + { bar {X}} ^ {2}} {n }}}}

(поскольку стандартное отклонение - это квадратный корень из дисперсии)

Приближение Стьюдента при σ значение неизвестно

Во многих практических приложениях истинная ценность σ неизвестно. В результате нам нужно использовать распределение, которое учитывает этот разброс возможных σ 's. Если известно, что истинное базовое распределение является гауссовым, хотя и с неизвестным σ, то полученное оцененное распределение следует t-распределению Стьюдента. Стандартная ошибка - это стандартное отклонение t-распределения Стьюдента. Т-распределения немного отличаются от гауссовых и меняются в зависимости от размера выборки. Небольшие выборки с большей вероятностью недооценивают стандартное отклонение совокупности и имеют среднее значение, которое отличается от истинного среднего значения совокупности, а t-распределение Стьюдента учитывает вероятность этих событий с несколько более тяжелыми хвостами по сравнению с гауссовым. Для оценки стандартной ошибки t-распределения Стьюдента достаточно использовать стандартное отклонение выборки "s" вместо σ, и мы могли бы использовать это значение для вычисления доверительных интервалов.

Примечание: В Распределение вероятностей студента хорошо аппроксимируется распределением Гаусса, когда размер выборки превышает 100. Для таких выборок можно использовать последнее распределение, которое намного проще.

Предположения и использование

Пример того, как ${ displaystyle operatorname {SE}}$ используется, чтобы сделать доверительные интервалы неизвестного среднего значения в генеральной совокупности. Если выборочное распределение нормально распределенный, выборочное среднее, стандартная ошибка и квантили нормального распределения можно использовать для расчета доверительных интервалов для истинного среднего значения по совокупности. Следующие выражения можно использовать для расчета верхнего и нижнего 95% доверительных интервалов, где ${ displaystyle { bar {x}}}$ равно выборочному среднему, ${ displaystyle operatorname {SE}}$ равна стандартной ошибке для выборочного среднего, и 1.96 это приблизительное значение 97,5 процентиль точка нормальное распределение:

Верхний предел 95%

{ displaystyle = { bar {x}} + ( operatorname {SE} times 1,96),}

и

Нижний предел 95%

{ displaystyle = { bar {x}} - ( operatorname {SE} times 1,96).}

В частности, стандартная ошибка статистика выборки (Такие как выборочное среднее ) - фактическое или расчетное стандартное отклонение выборочного среднего в процессе, в котором оно было получено. Другими словами, это фактическое или расчетное стандартное отклонение выборочное распределение статистики выборки. Обозначение стандартной ошибки может быть любым из SE, SEM (для стандартной ошибки измерение или же иметь в виду) или S_E.

Стандартные ошибки обеспечивают простые меры неопределенности значения и часто используются, потому что:

во многих случаях, если известна стандартная ошибка нескольких отдельных величин, то стандартная ошибка некоторых функция количества можно легко рассчитать;
когда распределение вероятностей значения известно, его можно использовать для расчета точного доверительный интервал;
когда распределение вероятностей неизвестно, Чебышев или Неравенства Высочанского – Петунина. может использоваться для расчета консервативного доверительного интервала; и
как размер образца стремится к бесконечности Центральная предельная теорема гарантирует, что выборочное распределение среднего асимптотически нормальный.

Стандартная ошибка среднего значения по сравнению со стандартным отклонением

В научно-технической литературе экспериментальные данные часто суммируются либо с использованием среднего значения и стандартного отклонения выборочных данных, либо среднего значения со стандартной ошибкой. Это часто приводит к путанице в отношении их взаимозаменяемости. Однако среднее значение и стандартное отклонение равны описательная статистика, тогда как стандартная ошибка среднего описывает процесс случайной выборки. Стандартное отклонение данных выборки - это описание вариации в измерениях, тогда как стандартная ошибка среднего - это вероятностное утверждение о том, как размер выборки обеспечит лучшую границу оценок среднего генеральной совокупности в свете центрального предела. теорема.^[8]

Проще говоря, стандартная ошибка выборочного среднего - это оценка того, насколько далеко среднее значение выборки может отличаться от среднего по генеральной совокупности, тогда как стандартное отклонение выборки - это степень, в которой отдельные лица в выборке отличаются от среднего по выборке.^[9] Если стандартное отклонение генеральной совокупности конечно, стандартная ошибка среднего значения выборки будет стремиться к нулю с увеличением размера выборки, потому что оценка генерального среднего будет улучшаться, в то время как стандартное отклонение выборки будет приближаться к стандарту генеральной совокупности. отклонение по мере увеличения размера выборки.

Расширения

Поправка на конечную совокупность

Приведенная выше формула для стандартной ошибки предполагает, что размер выборки намного меньше размера генеральной совокупности, так что совокупность может считаться фактически бесконечной по размеру. Обычно это имеет место даже в случае конечных популяций, потому что большую часть времени люди в первую очередь заинтересованы в управлении процессами, которые создали существующую конечную популяцию; это называется аналитическое исследование, следующий У. Эдвардс Деминг. Если люди заинтересованы в управлении существующей конечной совокупностью, которая не будет меняться со временем, то необходимо внести поправку в размер популяции; это называется перечислительное исследование.

Когда фракция отбора проб большой (примерно 5% и более) в перечислительное исследование, оценка стандартной ошибки должна быть скорректирована путем умножения на «поправку на конечную совокупность»:^[10]^[11]

{ displaystyle operatorname {FPC} = { sqrt { frac {N-n} {N-1}}}}

что для больших N:

{ displaystyle operatorname {FPC} приблизительно { sqrt {1 - { frac {n} {N}}}}}

чтобы учесть дополнительную точность, полученную за счет выборки, близкой к большему проценту населения. Эффект FPC заключается в том, что ошибка становится нулевой, когда размер выборки п равна численности населения N.

Поправка на корреляцию в выборке

Ожидаемая ошибка в среднем А для образца п точки данных с коэффициентом смещения выборкиρ. Непредвзятый стандартная ошибка сюжеты как ρ = 0 диагональная линия с логарифмическим уклоном −½.

Если значения измеряемой величины А не являются статистически независимыми, но были получены из известных мест в пространстве параметровИкс, несмещенная оценка истинной стандартной ошибки среднего (фактически поправка на часть стандартного отклонения) может быть получена путем умножения вычисленной стандартной ошибки выборки на коэффициентж:

{ displaystyle f = { sqrt { frac {1+ rho} {1- rho}}},}

где коэффициент смещения выборки ρ - широко используемый Оценка Прейса – Винстена из автокорреляция -коэффициент (величина от -1 до +1) для всех пар точек выборки. Эта приблизительная формула предназначена для выборки среднего и большого размера; Справочник дает точные формулы для любого размера выборки и может применяться к сильно автокоррелированным временным рядам, таким как котировки акций Уолл-стрит. Более того, эта формула работает как для положительных, так и для отрицательных значений ρ.^[12] Смотрите также объективная оценка стандартного отклонения для дальнейшего обсуждения.