Исследование данных - Data exploration

Исследование данных подход аналогичен начальному анализ данных, посредством чего аналитик данных использует визуальное исследование, чтобы понять, что находится в наборе данных и характеристики данных, а не через традиционные системы управления данными.[1] Эти характеристики могут включать размер или количество данных, полноту данных, правильность данных, возможные отношения между элементами данных или файлами / таблицами в данных.

Исследование данных обычно проводится с использованием комбинации автоматизированных и ручных действий.[1][2][3] Автоматизированные действия могут включать профилирование данных или же визуализация данных или же табличные отчеты чтобы дать аналитику первоначальное представление о данных и понимание ключевых характеристик.[1]

За этим часто следует руководство детализация или фильтрация данных для выявления аномалий или закономерностей, выявленных с помощью автоматизированных действий. Исследование данных также может потребовать написания сценариев и запросов к данным вручную (например, с использованием таких языков, как SQL или же р ) или используя электронные таблицы или аналогичные инструменты для просмотра необработанные данные.[4]

Все эти действия направлены на создание ментальной модели и понимания данных в уме аналитика, а также на определение основных метаданные (статистика, структура, отношения) для набора данных, который можно использовать в дальнейшем анализе.[1]

Как только будет получено это первоначальное понимание данных, их можно сократить или уточнить, удалив неиспользуемые части данных (очистка данных ), исправляя плохо отформатированные элементы и определяя соответствующие отношения между наборами данных.[2] Этот процесс также известен как определение Качество данных.[4]

Исследование данных также может относиться к специальным запросам и визуализации данных для выявления потенциальных взаимосвязей или идей, которые могут быть скрыты в данных.[1]

Традиционно это было ключевой областью внимания статистиков, Джон Тьюки быть ключевым евангелистом в этой области.[5] Сегодня исследование данных более широко распространено и находится в центре внимания аналитиков данных и специалисты по данным; последнее является относительно новой ролью на предприятиях и в более крупных организациях.

Интерактивное исследование данных

Эта область исследования данных стала областью интересов в области машинное обучение. Это относительно новая область, и она все еще развивается.[4] В качестве самого базового уровня алгоритм машинного обучения может получать набор данных и использоваться для определения того, верна ли гипотеза на основе набора данных. Распространенные алгоритмы машинного обучения могут сосредоточиться на выявлении определенных закономерностей в данных.[2] Многие общие шаблоны включают регресс и классификация или же кластеризация, но существует множество возможных шаблонов и алгоритмов, которые можно применить к данным с помощью машинного обучения.

Используя машинное обучение, можно найти закономерности или взаимосвязи в данных, которые было бы трудно или невозможно найти с помощью ручной проверки, проб и ошибок или традиционных методов исследования.[6]

Программного обеспечения

  • Trifacta - платформа для подготовки и анализа данных
  • Паксата - ПО для самостоятельной подготовки данных
  • Альтерикс - программное обеспечение для смешивания данных и расширенного анализа данных
  • Microsoft Power BI - интерактивный инструмент визуализации и анализа данных
  • OpenRefine - автономное настольное приложение с открытым исходным кодом для очистки и преобразования данных
  • Программное обеспечение Tableau - программное обеспечение для интерактивной визуализации данных

Смотрите также

Рекомендации

  1. ^ а б c d е FOSTER Открытая наука, Обзор методов исследования данных: Stratos Idreos, Olga Papaemmonouil, Surajit Chaudhuri.
  2. ^ а б c Stanford.edu, 2011 Wrangler: Интерактивная визуальная спецификация сценариев преобразования данных, Кандел, Пепке, Хеллерстайн Хеер.
  3. ^ Арнаб Нанди; Х. В. Джагадиш. Управляемое взаимодействие: переосмысление парадигмы результатов запроса (PDF). Международная конференция по очень большим базам данных (VLDB) 2011 г.
  4. ^ а б c Stanford.edu, IEEE Visual Analytics Science & Technology (VAST), октябрь 2012 г. Анализ и визуализация корпоративных данных: исследование в ходе интервью., Шон Кандел, Андреас Пепке, Джозеф Хеллерстайн, Джеффри Хир Proc.
  5. ^ Исследовательский анализ данных, Пирсон. ISBN  978-0201076165
  6. ^ Машинное обучение для исследования данных