Многоуровневая модель - Multilevel model

Многоуровневые модели (также известен как иерархические линейные модели, линейная модель со смешанными эффектами, смешанные модели, вложенные модели данных, случайный коэффициент, модели со случайными эффектами, модели со случайными параметрами, или же сплит-проекты) находятся статистические модели из параметры которые различаются более чем на одном уровне.[1] Примером может служить модель успеваемости учащихся, которая содержит показатели для отдельных учеников, а также показатели для классов, в которых они сгруппированы. Эти модели можно рассматривать как обобщения линейные модели (особенно, линейная регрессия ), хотя их можно распространить и на нелинейные модели. Эти модели стали намного более популярными после того, как стали доступны достаточные вычислительные мощности и программное обеспечение.[1]

Многоуровневые модели особенно подходят для исследовательских проектов, где данные для участников организованы более чем на одном уровне (т. Е. вложенные данные ).[2] Единицами анализа обычно являются индивиды (на более низком уровне), которые вложены в контекстные / агрегированные единицы (на более высоком уровне).[3] В то время как самый низкий уровень данных в многоуровневых моделях обычно является индивидуальным, можно также изучить повторные измерения отдельных лиц.[2] Таким образом, многоуровневые модели обеспечивают альтернативный тип анализа для одномерных или многомерный анализ из повторные меры. Индивидуальные различия в кривые роста можно изучить.[2] Кроме того, многоуровневые модели могут использоваться как альтернатива ANCOVA, где оценки зависимой переменной корректируются с учетом ковариат (например, индивидуальных различий) перед проверкой различий в лечении.[4] Многоуровневые модели могут анализировать эти эксперименты без допущений об однородности наклонов регрессии, которые требуются ANCOVA.[2]

Многоуровневые модели могут использоваться для данных с множеством уровней, хотя двухуровневые модели являются наиболее распространенными, и остальная часть этой статьи посвящена только им. Зависимую переменную необходимо исследовать на самом низком уровне анализа.[1]

Уравнение регрессии уровня 1

Когда есть одна независимая переменная уровня 1, модель уровня 1:

  • относится к баллу зависимой переменной для индивидуального наблюдения на уровне 1 (индекс i относится к индивидуальному случаю, индекс j относится к группе).
  • относится к предсказателю уровня 1.
  • относится к перехвату зависимой переменной в группе j (уровень 2).
  • относится к наклону отношения в группе j (уровень 2) между предиктором уровня 1 и зависимой переменной.
  • относится к случайным ошибкам прогнозирования для уравнения уровня 1 (иногда его также называют ).

На уровне 1 как точки пересечения, так и уклоны в группах могут быть либо фиксированными (это означает, что все группы имеют одинаковые значения, хотя в реальном мире это было бы редко), либо изменяться неслучайно (что означает, что точки пересечения и / или наклоны предсказуемы на основе независимой переменной на уровне 2), или изменяются случайным образом (это означает, что точки пересечения и / или наклоны различны в разных группах, и что каждая имеет свое собственное общее среднее значение и дисперсию).[2]

При наличии нескольких независимых переменных уровня 1 модель может быть расширена путем замены векторов и матриц в уравнение.

Уравнение регрессии уровня 2

Зависимые переменные - это точки пересечения и наклоны для независимых переменных на Уровне 1 в группах Уровня 2.

  • относится к общему перехвату. Это общее среднее значение оценок зависимой переменной по всем группам, когда все предикторы равны 0.
  • относится к предсказателю уровня 2.
  • относится к общему коэффициенту регрессии или наклону между зависимой переменной и предиктором уровня 2.
  • относится к компоненту случайной ошибки для отклонения точки пересечения группы от общей точки пересечения.
  • относится к общему коэффициенту регрессии или наклону между зависимой переменной и предиктором уровня 1.
  • относится к компоненту ошибки для наклона (то есть отклонению групповых наклонов от общего наклона).[2]

Типы моделей

Перед проведением многоуровневого анализа модели исследователь должен решить несколько аспектов, в том числе, какие предикторы должны быть включены в анализ, если таковые имеются. Во-вторых, исследователь должен решить, будут ли значения параметров (то есть элементы, которые будут оцениваться) фиксированными или случайными.[2][4] Фиксированные параметры состоят из константы для всех групп, тогда как случайный параметр имеет различное значение для каждой из групп. Кроме того, исследователь должен решить, использовать ли оценку максимального правдоподобия или ограниченный тип оценки максимального правдоподобия.[2]

Модель случайных перехватов

Модель случайных перехватов - это модель, в которой перехватам разрешено варьироваться, и, следовательно, оценки зависимой переменной для каждого отдельного наблюдения предсказываются перехватом, который варьируется в разных группах.[4][5] Эта модель предполагает, что уклоны фиксированы (одинаковы в разных контекстах). Кроме того, эта модель предоставляет информацию о внутриклассовые корреляции, которые помогают определить, нужны ли многоуровневые модели в первую очередь.[2]

Модель случайных уклонов

Модель случайных уклонов - это модель, в которой уклоны могут изменяться, и, следовательно, уклоны различны для разных групп. Эта модель предполагает, что перехваты фиксированы (одинаковы в разных контекстах).[4]

Модель случайных пересечений и наклонов

Модель, которая включает как случайные пересечения, так и случайные наклоны, вероятно, является наиболее реалистичным типом модели, хотя она также является наиболее сложной. В этой модели и точки пересечения, и наклоны могут изменяться в разных группах, что означает, что они различны в разных контекстах.[4]

Разработка многоуровневой модели

Чтобы провести многоуровневый анализ модели, нужно начать с фиксированных коэффициентов (наклонов и пересечений). Один аспект может изменяться за один раз (то есть может быть изменен) и сравниваться с предыдущей моделью для оценки лучшего соответствия модели.[1] При оценке модели исследователь задает три разных вопроса. Во-первых, это хорошая модель? Во-вторых, лучше ли более сложная модель? В-третьих, какой вклад в модель вносят отдельные предикторы?

Для оценки моделей будут изучены различные статистические данные о соответствии модели.[2] Одна из таких статистических величин - хи-квадрат. критерий отношения правдоподобия, который оценивает разницу между моделями. Тест отношения правдоподобия может использоваться для построения модели в целом, для изучения того, что происходит, когда эффекты в модели могут изменяться, и при тестировании категориальной переменной с фиктивным кодом как одного эффекта.[2] Однако тест можно использовать только тогда, когда модели вложенный (это означает, что более сложная модель включает все эффекты более простой модели). При тестировании невложенных моделей сравнения между моделями можно проводить с помощью Информационный критерий Акаике (AIC) или Байесовский информационный критерий (BIC) и другие.[1][2][4] Смотрите дальше Выбор модели.

Предположения

Многоуровневые модели имеют те же предположения, что и другие основные линейные модели общего вида (например, ANOVA, регресс ), но некоторые допущения изменены с учетом иерархического характера проекта (т. е. вложенных данных).

Линейность

Предположение о линейности утверждает, что существует прямолинейное (прямолинейное, в отличие от нелинейного или U-образного) отношения между переменными.[6] Однако модель может быть расширена до нелинейных отношений.[7]

Нормальность

Предположение о нормальности утверждает, что члены ошибки на каждом уровне модели нормально распределены.[6][оспаривается ]. Однако большинство статистических программ позволяет задавать различные распределения для членов дисперсии, такие как пуассоновское, биномиальное, логистическое. Подход многоуровневого моделирования может использоваться для всех форм обобщенных линейных моделей.

Гомоскедастичность

Предположение о гомоскедастичность, также известная как однородность дисперсии, предполагает равенство дисперсий совокупности.[6] Однако для учета этого может быть указана другая матрица дисперсии-корреляции, а неоднородность дисперсии может быть смоделирована.

Независимость наблюдений

Независимость - это допущение общих линейных моделей, в которых говорится, что случаи представляют собой случайные выборки из совокупности и что оценки по зависимой переменной не зависят друг от друга.[6] Одна из основных целей многоуровневых моделей - иметь дело со случаями, когда нарушается предположение о независимости; Однако многоуровневые модели предполагают, что 1) остатки уровня 1 и уровня 2 некоррелированы и 2) ошибки (измеряемые остатками) на самом высоком уровне не коррелированы.[8]

Статистические тесты

Тип статистических тестов, которые используются в многоуровневых моделях, зависит от того, исследуются ли фиксированные эффекты или компоненты дисперсии. При исследовании фиксированных эффектов тесты сравниваются со стандартной ошибкой фиксированного эффекта, в результате чего получается Z-тест.[4] А t-тест также можно вычислить. При вычислении t-критерия важно помнить о степенях свободы, которые будут зависеть от уровня предиктора (например, предиктора уровня 1 или предиктора уровня 2).[4] Для предиктора уровня 1 степени свободы основаны на количестве предикторов уровня 1, количестве групп и количестве отдельных наблюдений. Для предиктора уровня 2 степени свободы основаны на количестве предикторов уровня 2 и количестве групп.[4]

Статистическая мощность

Статистическая мощность многоуровневых моделей различается в зависимости от того, исследуются ли эффекты уровня 1 или уровня 2. Мощность эффектов уровня 1 зависит от количества отдельных наблюдений, тогда как мощность эффектов уровня 2 зависит от количества групп.[9] Для проведения исследований с достаточной мощностью в многоуровневых моделях требуются большие размеры выборки. Однако количество индивидуальных наблюдений в группах не так важно, как количество групп в исследовании. Для выявления межуровневых взаимодействий, учитывая, что размеры групп не слишком малы, были сделаны рекомендации, что необходимо как минимум 20 групп.[9] Проблема статистической мощности в многоуровневых моделях усложняется тем фактом, что мощность варьируется в зависимости от размера эффекта и внутриклассовых корреляций, она различается для фиксированных эффектов и случайных эффектов и изменяется в зависимости от количества групп и количества отдельных наблюдений. на группу.[9]

Приложения

Уровень

Концепция уровня является краеугольным камнем этого подхода. В образовательные исследования Например, уровни для двухуровневой модели могут быть:

  1. ученица
  2. класс

Однако, если вы изучаете несколько школ и несколько школьных округов, четырехуровневая модель может быть:

  1. ученица
  2. класс
  3. школа
  4. округ

Исследователь должен установить для каждого переменная уровень, на котором он был измерен. В этом примере «результат теста» может быть измерен на уровне ученика, «опыт учителя» на уровне класса, «финансирование школы» на уровне школы и «городское» на уровне района.

пример

В качестве простого примера рассмотрим базовую модель линейной регрессии, которая прогнозирует доход как функцию возраста, класса, пола и расы. Затем можно заметить, что уровни дохода также различаются в зависимости от города и штата проживания. Простой способ включить это в регрессионную модель - добавить дополнительный независимый категориальная переменная для учета местоположения (то есть набора дополнительных двоичных предикторов и связанных коэффициентов регрессии, по одному на местоположение). Это привело бы к сдвигу среднего дохода вверх или вниз, но при этом, например, все равно будет предполагаться, что влияние расы и пола на доход одинаково везде. В действительности это маловероятно - разные местные законы, разная политика выхода на пенсию, различия в уровне расовых предрассудков и т. Д. Могут привести к тому, что все предикторы будут иметь разные виды эффектов в разных местах.

Другими словами, простая модель линейной регрессии может, например, предсказать, что данный случайно выбранный человек в Сиэтл будет иметь средний годовой доход на 10 000 долларов выше, чем у аналогичного человека в Мобил, Алабама. Тем не менее, он также может предсказывать, например, что средний доход белого человека может быть на 7000 долларов больше, чем у черного, а 65-летний может иметь доход на 3000 долларов ниже 45-летнего, в обоих случаях независимо от место расположения. Однако многоуровневая модель допускает разные коэффициенты регрессии для каждого предиктора в каждом месте. По сути, это будет предполагать, что люди в данном месте имеют коррелированные доходы, генерируемые одним набором коэффициентов регрессии, тогда как люди в другом месте имеют доходы, полученные с помощью другого набора коэффициентов. Между тем предполагается, что сами коэффициенты коррелированы и генерируются из единственного набора гиперпараметры. Возможны дополнительные уровни: например, люди могут быть сгруппированы по городам, а коэффициенты регрессии на уровне города сгруппированы по штатам, а коэффициенты уровня штата сгенерированы из одного гипер-гиперпараметра.

Многоуровневые модели являются подклассом иерархические байесовские модели, которые представляют собой общие модели с несколькими уровнями случайные переменные и произвольные отношения между различными переменными. Многоуровневый анализ был расширен и теперь включает многоуровневый анализ. структурное моделирование уравнение, многоуровневый латентное моделирование классов, и другие более общие модели.

Использует

Многоуровневые модели использовались в исследованиях в области образования или географических исследованиях, чтобы отдельно оценить разницу между учениками в одной школе и разницу между школами. В психологических приложениях несколько уровней - это элементы инструмента, отдельных лиц и семей. В социологических приложениях многоуровневые модели используются для изучения людей, проживающих в регионах или странах. В организационная психология исследования, данные от отдельных лиц часто должны быть вложены в группы или другие функциональные подразделения.

Различные ковеременные могут иметь значение на разных уровнях. Их можно использовать для продольных исследований, как и для исследований роста, для разделения изменений в пределах одного человека и различий между людьми.

Межуровневые взаимодействия также могут представлять существенный интерес; например, когда наклон может изменяться случайным образом, предсказатель уровня 2 может быть включен в формулу наклона для ковариаты уровня 1. Например, можно оценить взаимодействие расы и соседства так, чтобы оценить взаимодействие между характеристиками человека и контекстом.

Приложения к продольным данным (повторные измерения)

Альтернативные способы анализа иерархических данных

Есть несколько альтернативных способов анализа иерархических данных, хотя у большинства из них есть некоторые проблемы. Во-первых, можно использовать традиционные статистические методы. Можно разделить переменные более высокого порядка на индивидуальный уровень и, таким образом, провести анализ на этом индивидуальном уровне (например, присвоить переменные класса индивидуальному уровню). Проблема с этим подходом заключается в том, что он нарушит предположение о независимости и, следовательно, может исказить наши результаты. Это известно как атомистическая ошибка.[10] Другой способ анализа данных с использованием традиционных статистических подходов - агрегирование переменных индивидуального уровня с переменными более высокого порядка, а затем проведение анализа на этом более высоком уровне. Проблема с этим подходом состоит в том, что он отбрасывает всю внутригрупповую информацию (потому что он принимает среднее значение переменных индивидуального уровня). До 80–90% дисперсии может быть потрачено впустую, а взаимосвязь между агрегированными переменными будет завышена и, следовательно, искажена.[11] Это известно как экологическая ошибка, и статистически этот тип анализа приводит к снижению мощности в дополнение к потере информации.[2]

Другой способ анализа иерархических данных - использовать модель случайных коэффициентов. Эта модель предполагает, что у каждой группы своя модель регрессии - со своим собственным пересечением и наклоном.[4] Поскольку выборка осуществляется по группам, модель предполагает, что пересечения и наклоны также случайным образом выбираются из совокупности групповых пересечений и наклонов. Это позволяет провести анализ, в котором можно предположить, что уклоны фиксированы, но пересечения могут изменяться.[4] Однако это представляет проблему, поскольку отдельные компоненты независимы, а компоненты группы независимы между группами, но зависят внутри групп. Это также позволяет проводить анализ, в котором наклоны случайны; однако корреляция членов ошибок (возмущений) зависит от значений переменных индивидуального уровня.[4] Таким образом, проблема с использованием модели случайных коэффициентов для анализа иерархических данных заключается в том, что по-прежнему невозможно включить переменные более высокого порядка.

Условия ошибки

Многоуровневые модели имеют два члена ошибок, которые также известны как возмущения. Все отдельные компоненты независимы, но есть и групповые компоненты, которые независимы между группами, но коррелируют внутри групп. Однако компоненты дисперсии могут различаться, поскольку одни группы более однородны, чем другие.[11]

Смотрите также

Рекомендации

  1. ^ а б c d е Брик, Стивен В. Рауденбуш, Энтони С. (2002). Иерархические линейные модели: приложения и методы анализа данных (2. изд., [3. д-р] изд.). Таузенд-Оукс, Калифорния [u.a.]: Sage Publications. ISBN  978-0-7619-1904-9.
  2. ^ а б c d е ж грамм час я j k л м Фиделл, Барбара Г. Табачник, Линда С. (2007). Использование многомерной статистики (5-е изд.). Бостон; Монреаль: Пирсон / A&B. ISBN  978-0-205-45938-4.
  3. ^ Люк, Дуглас А. (2004). Многоуровневое моделирование (3-е изд.). Таузенд-Оукс, Калифорния: Сейдж. ISBN  978-0-7619-2879-9.
  4. ^ а б c d е ж грамм час я j k л Коэн, Джейкоб (3 октября 2003 г.). Прикладной множественный регрессионный / корреляционный анализ для поведенческих наук (3-е изд.). Махва, Нью-Джерси [u.a.]: Эрлбаум. ISBN  978-0-8058-2223-6.
  5. ^ редактор, Дж. Дэвид Гарсон (10 апреля 2012 г.). Иерархическое линейное моделирование: руководство и приложения. Таузенд-Оукс, Калифорния: Sage Publications. ISBN  978-1-4129-9885-7.CS1 maint: дополнительный текст: список авторов (ссылка на сайт)
  6. ^ а б c d Салкинд, Сэмюэл Б. Грин, Нил Дж. (2004). Использование SPSS для Windows и Macintosh: анализ и понимание данных (4-е изд.). Река Аппер Сэдл, Нью-Джерси: Pearson Education. ISBN  978-0-13-146597-8.
  7. ^ Гольдштейн, Харви (1991). «Нелинейные многоуровневые модели с приложением к дискретным данным отклика». Биометрика. 78 (1): 45–51. Дои:10.1093 / biomet / 78.1.45. JSTOR  2336894.
  8. ^ Статистическая консалтинговая группа ATS. «Введение в многоуровневое моделирование с использованием HLM 6» (PDF). Архивировано из оригинал (PDF) 31 декабря 2010 г.
  9. ^ а б c Леу, Ита Крефт, Ян де (1998). Знакомство с многоуровневым моделированием (Ред. Ред.). Лондон: Sage Publications Ltd. ISBN  978-0-7619-5141-4.
  10. ^ Hox, Joop (2002). Многоуровневый анализ: методы и приложения (Перепечатка. Ред.). Махва, Нью-Джерси [u.a.]: Эрлбаум. ISBN  978-0-8058-3219-8.
  11. ^ а б Bryk, Anthony S .; Рауденбуш, Стивен В. (1 января 1988 г.). «Неоднородность дисперсии в экспериментальных исследованиях: вызов традиционным интерпретациям». Психологический бюллетень. 104 (3): 396–404. Дои:10.1037/0033-2909.104.3.396.

дальнейшее чтение

внешняя ссылка