Исследовательский анализ данных - Exploratory data analysis

В статистика, разведочный анализ данных это подход к анализируя наборы данных резюмировать их основные характеристики, часто с помощью наглядных методов. А статистическая модель могут использоваться или нет, но в первую очередь EDA предназначена для того, чтобы увидеть, что данные могут сказать нам, помимо формального моделирования или задачи проверки гипотез. Исследовательскому анализу данных способствовали Джон Тьюки побудить статистиков исследовать данные и, возможно, сформулировать гипотезы, которые могут привести к сбору новых данных и экспериментам. EDA отличается от анализ исходных данных (IDA),[1] который фокусируется более узко на проверке предположений, необходимых для подгонки модели и проверки гипотез, а также на обработке пропущенных значений и выполнении преобразований переменных по мере необходимости. EDA включает IDA.

Обзор

Тьюки определил анализ данных в 1961 году как: «Процедуры анализа данных, методы интерпретации результатов таких процедур, способы планирования сбора данных, чтобы сделать их анализ более простым, более точным или более точным, а также все механизмы и результаты ( математическая) статистика, которая применяется для анализа данных ".[2]

Поддержка Тьюки EDA способствовала развитию статистические вычисления пакеты, особенно S в Bell Labs. В S язык программирования вдохновил системы 'S'-PLUS и р. В этом семействе сред статистических вычислений были значительно улучшены возможности динамической визуализации, что позволило статистикам идентифицировать выбросы, тенденции и узоры в данных, заслуживающих дальнейшего изучения.

EDA Тьюки был связан с двумя другими разработками в статистическая теория: надежная статистика и непараметрическая статистика, оба из которых пытались снизить чувствительность статистических выводов к ошибкам при формулировании статистические модели. Тьюки продвигал использование пятизначное резюме числовых данных - два крайности (максимум и минимум ), медиана, а квартили - потому что эти медиана и квартили являются функциями эмпирическое распределение определены для всех распределений, в отличие от иметь в виду и стандартное отклонение; кроме того, квартили и медиана более устойчивы к перекошенный или же распределения с тяжелыми хвостами чем традиционные резюме (среднее и стандартное отклонение). Пакеты S, S-ПЛЮС, и р включены процедуры с использованием статистика повторной выборки, такие как Кенуй и Тьюки складной нож и Ефронс бутстрап, которые непараметрически и устойчивы (для многих задач).

Исследовательский анализ данных, надежная статистика, непараметрическая статистика и развитие языков статистического программирования облегчили работу статистиков над научными и инженерными проблемами. К таким проблемам относились производство полупроводников и понимание сетей связи, которые волновали Bell Labs. Эти статистические разработки, которые поддерживал Тьюки, были призваны дополнить аналитический теория проверка статистических гипотез, особенно Лапласиан акцент традиции на экспоненциальные семейства.[3]

Разработка

Блок-схема процесса обработки данных

Джон В. Тьюки написал книгу Исследовательский анализ данных в 1977 г.[4] Тьюки считал, что в статистике слишком много внимания уделяется статистическая проверка гипотез (подтверждающий анализ данных); больше внимания нужно уделять использованию данные предлагать гипотезы для проверки. В частности, он считал, что смешение двух типов анализа и использование их на одном и том же наборе данных может привести к систематическая ошибка из-за проблем, присущих проверка гипотез, предложенных данными.

Цели EDA:

Многие методы EDA были приняты в сбор данных. Они также преподаются молодым студентам как способ приобщить их к статистическому мышлению.[6]

Техники и инструменты

Существует ряд инструментов, которые могут быть полезны для EDA, но EDA характеризуется скорее настроением, чем конкретными методами.[7]

Типичный графические методы в EDA используются:

Снижение размерности:

Типичный количественный методы:

История

Многие идеи EDA восходят к более ранним авторам, например:

В Открытый университет курс Статистика в обществе (MDST 242), взял вышеупомянутые идеи и объединил их с Готфрид Нётер работы, которые представили статистические выводы через подбрасывание монеты и медианный тест.

Пример

Результаты EDA ортогональны задаче первичного анализа. Для иллюстрации рассмотрим пример Cook et al. где задача анализа состоит в том, чтобы найти переменные, которые наилучшим образом предсказывают чаевые официанту за ужином.[10] В данных, собранных для этой задачи, доступны следующие переменные: сумма чаевых, общий счет, пол плательщика, раздел для курящих / некурящих, время суток, день недели и размер вечеринки. Задача первичного анализа решается путем подбора регрессионной модели, в которой показатель чаевых является переменной отклика. Подходящая модель

(ставка чаевых ) = 0,18 - 0,01 × (размер партии)

где говорится, что по мере увеличения размера обеда на одного человека (что приводит к увеличению счета) ставка чаевых уменьшится на 1%.

Однако изучение данных обнаруживает другие интересные особенности, не описанные в этой модели.

То, что извлекается из графиков, отличается от того, что иллюстрируется регрессионной моделью, даже несмотря на то, что эксперимент не был разработан для исследования каких-либо других тенденций. Паттерны, обнаруженные при изучении данных, предполагают гипотезы об опрокидывании, которые, возможно, не ожидались заранее и которые могут привести к интересным последующим экспериментам, в которых гипотезы формально формулируются и проверяются путем сбора новых данных.

Программного обеспечения

  • JMP, пакет EDA от Институт САС.
  • KNIME, Konstanz Information Miner - платформа для исследования данных с открытым исходным кодом на основе Eclipse.
  • апельсин, Открытый исходный код сбор данных и машинное обучение программный комплекс.
  • Python, язык программирования с открытым исходным кодом, широко используемый в интеллектуальном анализе данных и машинном обучении.
  • р, язык программирования с открытым исходным кодом для статистических вычислений и графики. Вместе с Python один из самых популярных языков для науки о данных.
  • TinkerPlots программное обеспечение EDA для учащихся старших классов начальной и средней школы.
  • Weka пакет интеллектуального анализа данных с открытым исходным кодом, который включает инструменты визуализации и EDA, такие как преследование целевой проекции.

Смотрите также

Рекомендации

  1. ^ Чатфилд, К. (1995). Решение проблем: руководство для статистиков (2-е изд.). Чепмен и Холл. ISBN  978-0412606304.
  2. ^ Джон Тьюки - будущее анализа данных - июль 1961 г.
  3. ^ Моргенталер, Стефан; Фернхольц, Луиза Т. (2000). «Разговор с Джоном В. Тьюки и Элизабет Тьюки, Луизой Т. Фернхольц и Стефаном Моргенталером». Статистическая наука. 15 (1): 79–94. Дои:10.1214 / сс / 1009212675.
  4. ^ Тьюки, Джон В. (1977). Исследовательский анализ данных. Пирсон. ISBN  978-0201076165.
  5. ^ Беренс-Принципы и процедуры исследовательского анализа данных - Американская психологическая ассоциация-1997
  6. ^ Конольд, К. (1999). «Статистика идет в школу». Современная психология. 44 (1): 81–82. Дои:10.1037/001949.
  7. ^ Тьюки, Джон В. (1980). «Нам нужны как исследовательские, так и подтверждающие». Американский статистик. 34 (1): 23–25. Дои:10.1080/00031305.1980.10482706.
  8. ^ Sailem, Heba Z .; Серо, Юлия Е .; Бакал, Крис (2015-01-08). «Визуализация данных визуализации клеток с помощью PhenoPlot». Nature Communications. 6 (1): 5825. Дои:10.1038 / ncomms6825. ISSN  2041-1723. ЧВК  4354266. PMID  25569359.
  9. ^ Элементарное руководство по статистике (3-е изд., 1920 г.)https://archive.org/details/cu31924013702968/page/n5
  10. ^ Кук, Д. и Суэйн, Д.Ф. (с А. Буджа, Д. Темпл Ланг, Х. Хофманн, Х. Викхэм, М. Лоуренс) (2007) ″ Интерактивная и динамическая графика для анализа данных: с R и GGobi ″ Springer, 978-0387717616

Библиография

внешняя ссылка