Исследование данных - Data exploration
Исследование данных подход аналогичен начальному анализ данных, посредством чего аналитик данных использует визуальное исследование, чтобы понять, что находится в наборе данных и характеристики данных, а не через традиционные системы управления данными.[1] Эти характеристики могут включать размер или количество данных, полноту данных, правильность данных, возможные отношения между элементами данных или файлами / таблицами в данных.
Исследование данных обычно проводится с использованием комбинации автоматизированных и ручных действий.[1][2][3] Автоматизированные действия могут включать профилирование данных или же визуализация данных или же табличные отчеты чтобы дать аналитику первоначальное представление о данных и понимание ключевых характеристик.[1]
За этим часто следует руководство детализация или фильтрация данных для выявления аномалий или закономерностей, выявленных с помощью автоматизированных действий. Исследование данных также может потребовать написания сценариев и запросов к данным вручную (например, с использованием таких языков, как SQL или же р ) или используя электронные таблицы или аналогичные инструменты для просмотра необработанные данные.[4]
Все эти действия направлены на создание ментальной модели и понимания данных в уме аналитика, а также на определение основных метаданные (статистика, структура, отношения) для набора данных, который можно использовать в дальнейшем анализе.[1]
Как только будет получено это первоначальное понимание данных, их можно сократить или уточнить, удалив неиспользуемые части данных (очистка данных ), исправляя плохо отформатированные элементы и определяя соответствующие отношения между наборами данных.[2] Этот процесс также известен как определение Качество данных.[4]
Исследование данных также может относиться к специальным запросам и визуализации данных для выявления потенциальных взаимосвязей или идей, которые могут быть скрыты в данных.[1]
Традиционно это было ключевой областью внимания статистиков, Джон Тьюки быть ключевым евангелистом в этой области.[5] Сегодня исследование данных более широко распространено и находится в центре внимания аналитиков данных и специалисты по данным; последнее является относительно новой ролью на предприятиях и в более крупных организациях.
Интерактивное исследование данных
Эта область исследования данных стала областью интересов в области машинное обучение. Это относительно новая область, и она все еще развивается.[4] В качестве самого базового уровня алгоритм машинного обучения может получать набор данных и использоваться для определения того, верна ли гипотеза на основе набора данных. Распространенные алгоритмы машинного обучения могут сосредоточиться на выявлении определенных закономерностей в данных.[2] Многие общие шаблоны включают регресс и классификация или же кластеризация, но существует множество возможных шаблонов и алгоритмов, которые можно применить к данным с помощью машинного обучения.
Используя машинное обучение, можно найти закономерности или взаимосвязи в данных, которые было бы трудно или невозможно найти с помощью ручной проверки, проб и ошибок или традиционных методов исследования.[6]
Программного обеспечения
- Trifacta - платформа для подготовки и анализа данных
- Паксата - ПО для самостоятельной подготовки данных
- Альтерикс - программное обеспечение для смешивания данных и расширенного анализа данных
- Microsoft Power BI - интерактивный инструмент визуализации и анализа данных
- OpenRefine - автономное настольное приложение с открытым исходным кодом для очистки и преобразования данных
- Программное обеспечение Tableau - программное обеспечение для интерактивной визуализации данных
Смотрите также
Рекомендации
- ^ а б c d е FOSTER Открытая наука, Обзор методов исследования данных: Stratos Idreos, Olga Papaemmonouil, Surajit Chaudhuri.
- ^ а б c Stanford.edu, 2011 Wrangler: Интерактивная визуальная спецификация сценариев преобразования данных, Кандел, Пепке, Хеллерстайн Хеер.
- ^ Арнаб Нанди; Х. В. Джагадиш. Управляемое взаимодействие: переосмысление парадигмы результатов запроса (PDF). Международная конференция по очень большим базам данных (VLDB) 2011 г.
- ^ а б c Stanford.edu, IEEE Visual Analytics Science & Technology (VAST), октябрь 2012 г. Анализ и визуализация корпоративных данных: исследование в ходе интервью., Шон Кандел, Андреас Пепке, Джозеф Хеллерстайн, Джеффри Хир Proc.
- ^ Исследовательский анализ данных, Пирсон. ISBN 978-0201076165
- ^ Машинное обучение для исследования данных