Визуализация данных - Data visualization

Визуализация данных это междисциплинарная область, которая занимается графический представление из данные. Это особенно эффективный способ связи, когда данных много, например Временные ряды. С академической точки зрения это представление можно рассматривать как отображение между исходными данными (обычно числовыми) и графическими элементами (например, линиями или точками на диаграмме). Отображение определяет, как атрибуты этих элементов меняются в зависимости от данных. В этом свете гистограмма - это отображение длины столбца на величину переменной. Поскольку графический дизайн карты может негативно повлиять на читаемость диаграммы,[1] картографирование - ключевая компетенция визуализации данных. Визуализация данных берет свое начало в области Статистика и поэтому обычно считается ветвью Описательная статистика. Однако, поскольку для эффективной визуализации требуются как навыки проектирования, так и статистические и вычислительные навыки, некоторые авторы утверждают, что это одновременно искусство и наука.[2]

Обзор

Визуализация данных - один из этапов анализа данных и представления их пользователям.


Для четкой и эффективной передачи информации в визуализации данных используются статистическая графика, участки, информационная графика и другие инструменты. Числовые данные могут быть закодированы с использованием точек, линий или полос, чтобы визуально передать количественное сообщение.[3] Эффективная визуализация помогает пользователям анализировать и рассуждать о данных и доказательствах. Это делает сложные данные более доступными, понятными и удобными. У пользователей могут быть определенные аналитические задачи, такие как сравнение или понимание причинность, и принцип дизайна графики (то есть показ сравнения или демонстрация причинности) следует задаче. Таблицы обычно используются там, где пользователи будут искать конкретное измерение, в то время как диаграммы различных типов используются для отображения закономерностей или отношений в данных для одной или нескольких переменных.

Визуализация данных относится к методам, используемым для передачи данных или информации путем кодирования их в виде визуальных объектов (например, точек, линий или полос), содержащихся в графике. Цель состоит в том, чтобы четко и эффективно передавать информацию пользователям. Это один из этапов анализ данных или же наука о данных. По словам Виталия Фридмана (2008), «основная цель визуализации данных - четко и эффективно передавать информацию с помощью графических средств. Это не означает, что визуализация данных должна выглядеть скучной, чтобы быть функциональной, или чрезвычайно сложной, чтобы выглядеть красивой. Для передачи идей. По сути, эстетическая форма и функциональность должны идти рука об руку, обеспечивая понимание довольно разреженного и сложного набора данных за счет передачи его ключевых аспектов более интуитивно понятным способом. Тем не менее, дизайнерам часто не удается достичь баланса между формой и функцией, создавая великолепные визуализации данных, которые не служат своему основному назначению - передаче информации ».[4]

В самом деле, Фернанда Вьегас и Мартин М. Ваттенберг предположил, что идеальная визуализация должна не только четко передавать информацию, но и стимулировать заинтересованность и внимание зрителей.[5]

Визуализация данных тесно связана с информационная графика, визуализация информации, научная визуализация, разведочный анализ данных и статистическая графика. В новом тысячелетии визуализация данных стала активной областью исследований, обучения и развития. По данным Post et al. (2002) объединила научную и информационную визуализацию.[6]

В коммерческой среде визуализацию данных часто называют приборные панели. Инфографика - еще одна очень распространенная форма визуализации данных.

Характеристики эффективных графических дисплеев

Чарльз Джозеф Минар диаграмма 1869 г. Наполеоновское вторжение Франции в Россию, ранний пример информационной графики
Наибольшая ценность картины - это когда она заставляет нас замечать то, чего мы никогда не ожидали увидеть.

Джон Тьюки[7]

Профессор Эдвард Тафте объяснил, что пользователи информационных дисплеев выполняют определенные аналитические задачи например, сравнение. В принцип конструкции Информационная графика должна поддерживать аналитическую задачу.[8] Как показывают Уильям Кливленд и Роберт МакГилл, различные графические элементы выполняют это более или менее эффективно. Например, точечные диаграммы и гистограммы превосходят круговые диаграммы.[9]

В своей книге 1983 года Визуальное отображение количественной информации, Эдвард Тафте определяет «графические дисплеи» и принципы эффективного графического отображения в следующем отрывке: «Превосходство в статистической графике состоит из сложных идей, передаваемых с ясностью, точностью и эффективностью. Графические дисплеи должны:

  • показать данные
  • побудить зрителя задуматься о сути, а не о методологии, графическом дизайне, технологии графического производства или о чем-то еще
  • не искажать то, что говорят данные
  • представить много чисел в небольшом пространстве
  • сделать большие наборы данных согласованными
  • побудить глаз сравнивать разные данные
  • раскрыть данные на нескольких уровнях детализации, от широкого обзора до тонкой структуры
  • служат достаточно ясной цели: описание, исследование, табуляция или украшение
  • быть тесно интегрированным со статистическим и вербальным описанием набора данных.

Графика раскрыть данные. Действительно, графика может быть более точной и показательной, чем обычные статистические вычисления ».[10]

Например, диаграмма Минарда показывает потери, понесенные армией Наполеона в период 1812–1813 годов. На графике нанесены шесть переменных: размер армии, ее расположение на двумерной поверхности (x и y), время, направление движения и температура. Ширина линии иллюстрирует сравнение (размер армии в определенные моменты времени), а ось температуры указывает на причину изменения размера армии. Этот многовариантный дисплей на двумерной поверхности рассказывает историю, которую можно сразу понять, идентифицируя исходные данные, чтобы укрепить доверие. В 1983 году Тафт писал: «Это может быть лучший статистический график из когда-либо созданных».[10]

Несоблюдение этих принципов может привести к вводящие в заблуждение графики, которые искажают сообщение или поддерживают ошибочный вывод. По словам Тафте, диаграмма относится к постороннему внутреннему оформлению изображения, которое не усиливает сообщение, или к беспричинным трехмерным или перспективным эффектам. Излишне отделить пояснительный ключ от самого изображения, требуя, чтобы глаз перемещался от изображения к ключу и обратно, является формой «административного мусора». Отношение «данные к чернилам» должно быть максимальным, стирая чернила, не относящиеся к данным, где это возможно.[10]

В Бюджетное управление Конгресса обобщил несколько лучших практик для графических дисплеев в презентации в июне 2014 года. К ним относятся: а) знание своей аудитории; б) разработка графики, которая может стоять отдельно вне контекста отчета; и c) Разработка графических изображений, передающих ключевые идеи отчета.[11]

Количественные сообщения

Временной ряд, проиллюстрированный линейной диаграммой, демонстрирующей тенденции в федеральных расходах и доходах США с течением времени
Диаграмма рассеяния, показывающая отрицательную корреляцию между двумя переменными (инфляция и безработица), измеренными в определенные моменты времени.

Автор Стивен Фью описал восемь типов количественных сообщений, которые пользователи могут попытаться понять или передать на основе набора данных и связанных графиков, используемых для передачи сообщения:

  1. Временной ряд: фиксируется одна переменная за период времени, например уровень безработицы за 10-летний период. А линейный график может использоваться для демонстрации тренда.
  2. Ранжирование: категориальные подразделения ранжируются в порядке возрастания или убывания, например, рейтинг эффективности продаж ( мера) продавцами ( категория, с каждым продавцом категориальное подразделение) в течение одного периода. А гистограмма может использоваться для сравнения продавцов.
  3. От части к целому: категориальные подразделения измеряются как отношение к целому (т. Е. Процент от 100%). А круговая диаграмма или гистограмма может отображать сравнение соотношений, таких как рыночная доля, представленная конкурентами на рынке.
  4. Отклонение: категориальные подразделения сравниваются с эталоном, например, сравнение фактических и бюджетных расходов для нескольких отделов бизнеса за определенный период времени. Гистограмма может показать сравнение фактической суммы с контрольной.
  5. Частотное распределение: показывает количество наблюдений за конкретной переменной для данного интервала, например, количество лет, в течение которых доходность фондового рынка находится между такими интервалами, как 0-10%, 11-20% и т. Д. гистограмма, тип столбчатой ​​диаграммы, может использоваться для этого анализа. А ящик помогает визуализировать ключевую статистику распределения, такую ​​как медиана, квартили, выбросы и т. д.
  6. Корреляция: сравнение наблюдений, представленных двумя переменными (X, Y), чтобы определить, имеют ли они тенденцию двигаться в одном или противоположных направлениях. Например, построение графика безработицы (X) и инфляции (Y) для выборки месяцев. А диаграмма рассеяния обычно используется для этого сообщения.
  7. Номинальное сравнение: сравнение категорийных подразделений без определенного порядка, например, объем продаж по коду продукта. Для этого сравнения можно использовать гистограмму.
  8. Географический или же геопространственный: Сравнение переменной на карте или макете, например, уровень безработицы по штатам или количество людей на разных этажах здания. А картограмма - это типичный графический объект.[3][12]

Аналитики, просматривающие набор данных, могут подумать, применимы ли некоторые или все приведенные выше сообщения и графические типы к их задачам и аудитории. Процесс проб и ошибок для выявления значимых взаимосвязей и сообщений в данных является частью разведочный анализ данных.

Визуальное восприятие и визуализация данных

Человек может легко различать различия в длине линий, форме, ориентации, расстояниях и цвете (оттенке) без значительных усилий по обработке; они называются "пре-внимательные атрибуты ". Например, может потребоваться значительное время и усилия (" внимательная обработка "), чтобы определить, сколько раз цифра" 5 "встречается в серии чисел; но если эта цифра отличается по размеру, ориентации или цвету, экземпляры цифры можно быстро отметить с помощью предварительной обработки.[13]

Эффективная графика использует преимущества предварительной обработки и атрибутов, а также относительную силу этих атрибутов. Например, поскольку людям легче обрабатывать различия в длине линии, чем в площади поверхности, может быть более эффективным использовать гистограмму (которая использует длину линии для сравнения), а не круговые диаграммы (которые используют площадь поверхности для отображения сравнения. ).[13]

Человеческое восприятие / познание и визуализация данных

Почти все визуализации данных созданы для потребления человеком. Знание человеческого восприятия и познания необходимо при разработке интуитивных визуализаций.[14] Познание относится к таким человеческим процессам, как восприятие, внимание, обучение, память, мышление, формирование концепций, чтение и решение проблем.[15] Обработка изображений человеком эффективна при обнаружении изменений и сравнении количества, размеров, форм и вариаций легкости. Когда свойства символьных данных сопоставляются с визуальными свойствами, люди могут эффективно просматривать большие объемы данных. Подсчитано, что 2/3 нейронов мозга могут участвовать в обработке изображений. Правильная визуализация обеспечивает другой подход к отображению потенциальных связей, отношений и т. Д., Которые не так очевидны в не визуализированных количественных данных. Визуализация может стать средством исследование данных.

Исследования показали, что люди использовали в среднем на 19% меньше когнитивных ресурсов и на 4,5% лучше запоминали детали при сравнении визуализации данных с текстом.[16]

История визуализации данных

Избранные вехи и изобретения

Нет исчерпывающей «истории» визуализации данных. Нет отчетов, которые охватывают все развитие визуального мышления и визуального представления данных и сопоставляют вклад различных дисциплин.[17] Майкл Френдли и Дэниел Дж. Денис из Йоркский университет участвуют в проекте, который пытается предоставить исчерпывающую историю визуализации. Вопреки распространенному мнению, визуализация данных - это не современная разработка. С доисторических времен данные о звездах или информация, такая как расположение звезд, визуализировались на стенах пещер (например, найденных в Пещера Ласко на юге Франции) с Плейстоцен эпоха.[18] Физические артефакты, такие как месопотамские глиняные жетоны (5500 г. до н.э.), инки кипу (2600 г. до н.э.) и Маршалловы острова диаграммы (н.о.) также можно рассматривать как визуализацию количественной информации.[19][20]

Первая документированная визуализация данных датируется 1160 годом до нашей эры. с Карта Туринского папируса который точно иллюстрирует распределение геологических ресурсов и предоставляет информацию о разработке этих ресурсов.[21] Такие карты можно разделить на тематическая картография, который представляет собой тип визуализации данных, который представляет и передает определенные данные и информацию через географическую иллюстрацию, предназначенную для демонстрации конкретной темы, связанной с определенной географической областью. Самыми ранними задокументированными формами визуализации данных были различные тематические карты из разных культур, а также идеограммы и иероглифы, которые обеспечивали и позволяли интерпретировать проиллюстрированную информацию. Например, Линейное письмо B таблетки Микены предоставил визуализацию информации о торговле эпохи поздней бронзы в Средиземноморье. Идея координат использовалась древнеегипетскими геодезистами при планировании городов, земные и небесные позиции определялись чем-то вроде широты и долготы, по крайней мере, к 200 г. до н.э., а картографическая проекция сферической земли в широте и долготе - Клавдий Птолемей [c.85 – c. 165] в Александрии служили эталоном до XIV века.[21]

Изобретение бумаги и пергамента позволило дальнейшее развитие визуализаций на протяжении всей истории. На рисунке показан график 10-го или, возможно, 11-го века, который предназначен для иллюстрации движения планет и используется в приложении к учебнику в монастырских школах.[22] График, по-видимому, должен был представлять собой график наклонов планетных орбит в зависимости от времени. Для этого зона зодиака изображалась на плоскости с горизонтальной линией, разделенной на тридцать частей как временная или продольная ось. Вертикальная ось обозначает ширину зодиака. Горизонтальный масштаб, по-видимому, был выбран для каждой планеты индивидуально, поскольку периоды не могут быть согласованы. Сопроводительный текст относится только к амплитудам. Видимо, кривые не связаны во времени.

Планетарные движения

К 16 веку методы и инструменты для точного наблюдения и измерения физических величин, а также географического и небесного положения были хорошо развиты (например, «квадрант стены», построенный Тихо Браге [1546–1601], покрывая всю стену в его обсерватории). Особенно важным было развитие триангуляции и других методов для точного определения местоположения на карте.[17]

Французский философ и математик Рене Декарт и Пьер де Ферма разработали аналитическую геометрию и двумерную систему координат, которые сильно повлияли на практические методы отображения и расчета значений. Ферма и Блез Паскаль Работа над статистикой и теорией вероятностей заложила основу для того, что мы теперь понимаем как данные.[17] По данным Interaction Design Foundation, эти разработки позволили и помогли Уильяму Играй честно, которые увидели потенциал для графической передачи количественных данных, для создания и развития графических методов статистики.[14]

Playfair TimeSeries

Во второй половине 20 века Жак Бертен использовали количественные графики для представления информации «интуитивно, ясно, точно и эффективно».[14]

Джон Тьюки и Эдвард Тафт расширили границы визуализации данных; Тьюки с его новым статистическим подходом к исследовательскому анализу данных и Тафте с его книгой «Визуальное отображение количественной информации» проложили путь к совершенствованию методов визуализации данных не только для статистиков. С развитием технологий пришла и визуализация данных; начиная с рисованной визуализации и заканчивая более техническими приложениями, включая интерактивные проекты, ведущие к программной визуализации.[23]

Такие программы, как SAS, ДИВАН, р, Minitab, Cornerstone и многое другое позволяют визуализировать данные в области статистики. Другие приложения для визуализации данных, более целенаправленные и уникальные для отдельных лиц, языки программирования, такие как D3, Python и JavaScript помочь сделать возможной визуализацию количественных данных. Частные школы также разработали программы для удовлетворения спроса на визуализацию обучающих данных и связанные библиотеки программирования, включая бесплатные программы, такие как Инкубатор данных или платные программы, такие как Генеральная Ассамблея.[24]

Начиная с симпозиума «Данные для открытия» в 2013 году, Колледж дизайна ArtCenter, Калифорнийский технологический институт и Лаборатория реактивного движения в Пасадене запустили годовую программу по интерактивной визуализации данных.[25] Программа задает вопрос: как интерактивная визуализация данных может помочь ученым и инженерам более эффективно исследовать свои данные? Как вычисления, дизайн и дизайн-мышление могут помочь максимизировать результаты исследований? Какие методологии наиболее эффективны для использования знаний из этих областей? Кодируя реляционную информацию с соответствующими визуальными и интерактивными характеристиками, чтобы помочь исследовать и, в конечном итоге, получить новое представление о данных, программа разрабатывает новые междисциплинарные подходы к сложным научным задачам, сочетая дизайнерское мышление и новейшие методы вычислений, ориентированного на пользователя дизайна, дизайна взаимодействия. и 3D-графика.

Терминология

Визуализация данных включает в себя особую терминологию, часть которой основана на статистике. Например, автор Стивен Фью определяет два типа данных, которые используются в комбинации для поддержки значимого анализа или визуализации:

  • Категориальный: представляют группы объектов с определенной характеристикой. Категориальные переменные могут быть номинальными или порядковыми. Номинальные переменные, например пол, не имеют порядка между собой и, следовательно, являются номинальными. Порядковые переменные - это категории с порядком, для выборки записи возрастной группы, в которую попадает человек.[26]
  • Количественные: представляют измерения, такие как рост человека или температура окружающей среды. Количественные переменные могут быть непрерывный или дискретный. Непрерывные переменные отражают идею о том, что измерения всегда можно проводить более точно. В то время как дискретные переменные имеют только конечное число возможностей, таких как количество результатов или возраст, измеренный в целых годах.[26]

Различие между количественными и категориальными переменными важно, поскольку для этих двух типов требуются разные методы визуализации.

Два основных типа информационные дисплеи таблицы и графики.

  • А стол содержит количественные данные, организованные в строки и столбцы с категориальными метками. Он в основном используется для поиска определенных значений. В приведенном выше примере таблица может иметь метки категориальных столбцов, представляющих имя ( качественная переменная) и возраст (a количественная переменная), где каждая строка данных представляет одного человека (выбранные экспериментальная установка или же подразделение по категориям).
  • А график в основном используется для отображения отношений между данными и отображает значения, закодированные как визуальные объекты (например, линии, столбцы или точки). Числовые значения отображаются в области, обозначенной одним или несколькими топоры. Эти оси обеспечивают напольные весы (количественные и категориальные), используемые для обозначения и присвоения значений визуальным объектам. Многие графики также называют графики.[27]

Эпплер и Ленглер разработали «Периодическую таблицу методов визуализации», интерактивную диаграмму, отображающую различные методы визуализации данных. Он включает шесть типов методов визуализации данных: данные, информация, концепция, стратегия, метафора и соединение.[28]

Примеры диаграмм, используемых для визуализации данных

ИмяВизуальные размерыОписание / примеры использования
Гистограмма подсказок по дням недели
Гистограмма
  • длина / количество
  • категория
  • цвет
  • Представляет категориальные данные с прямоугольный бары с высоты или же длина пропорциональны значениям, которые они представляют. Полосы могут быть нанесены вертикально или горизонтально.
  • Гистограмма показывает сравнения между дискретный категории. Одна ось диаграммы показывает конкретные сравниваемые категории, а другая ось представляет измеренное значение.
  • Некоторые гистограммы представляют собой столбцы, сгруппированные в группы по более чем одной, показывая значения более чем одной измеряемой переменной. Эти сгруппированные группы можно различить по цвету.
  • Например; сравнение значений, например показателей продаж для нескольких лиц или предприятий за один период времени.
Гистограмма цен на жилье
Гистограмма
  • пределы корзины
  • количество / длина
  • цвет
  • Примерное представление распределение числовых данных. Разделите весь диапазон значений на серию интервалов, а затем подсчитайте, сколько значений попадает в каждый интервал, который называется биннинг. Бункеры обычно указываются как последовательные, не перекрывающиеся. интервалы переменной. Бины (интервалы) должны быть смежными и часто (но не обязательно) равного размера.
  • Например, определение периодичности годовой процентной доходности фондового рынка в определенных диапазонах (диапазонах), таких как 0-10%, 11-20% и т. Д. Высота полосы представляет количество наблюдений (лет) с процентной доходностью в диапазон представлен соответствующим бункером.
Базовая диаграмма рассеяния двух переменных
Диаграмма разброса
  • позиция x
  • позиция y
  • символ / глиф
  • цвет
  • размер
  • Использует Декартовы координаты для отображения значений обычно для двух переменные для набора данных.
  • Точки можно закодировать по цвету, форме и / или размеру для отображения дополнительных переменных.
  • Каждая точка на графике имеет связанный член x и y, который определяет ее положение на декартовой плоскости.
  • Диаграммы разброса часто используются для выявления корреляции между переменными (x и y).
Диаграмма разброса
Диаграмма рассеяния (3D)
  • позиция x
  • позиция y
  • позиция z
  • цвет
  • символ
  • размер
  • Подобно 2-мерной диаграмме рассеяния выше, 3-мерная диаграмма рассеяния визуализирует взаимосвязь между обычно 3 переменными из набора данных.
  • Опять же, точка может быть закодирована по цвету, форме и / или размеру для отображения дополнительных переменных.
Сетевой анализ
Сеть
  • Поиск кластеров в сети (например, объединение друзей Facebook в разные кластеры).
  • Обнаружение мостов (информационных брокеров или пограничных ключей) между кластерами в сети
  • Определение наиболее влиятельных узлов в сети (например, компания хочет настроить таргетинг на небольшую группу людей в Twitter для маркетинговой кампании).
  • Выявление сторонних субъектов, которые не вписываются ни в один кластер или находятся на периферии сети.
Круговая диаграмма
Круговая диаграмма
  • цвет
  • Представляет одну категориальную переменную, которая разделена на части, чтобы проиллюстрировать числовую пропорцию. На круговой диаграмме длина дуги каждого среза (и, следовательно, его центральный угол и площадь ), является пропорциональный к количеству, которое оно представляет.
  • Например, как показано на графике справа, доля английский носители языка по всему миру
График
График
  • позиция x
  • позиция y
  • символ / глиф
  • цвет
  • размер
  • Представляет информацию в виде серии точек данных, называемых «маркерами», соединенных отрезками прямых линий.
  • Похоже на диаграмма рассеяния за исключением того, что точки измерения упорядочены (обычно по значению оси x) и соединены отрезками прямых линий.
  • Часто используется для визуализации тенденции данных за интервалы времени - Временные ряды - таким образом линия часто проводится в хронологическом порядке.
Streamgraph
Streamgraph
  • ширина
  • цвет
  • время (поток)
  • Тип сложенного график с областями который смещен вокруг центральная ось, в результате чего получается плавная форма.
  • В отличие от традиционного многоуровневого графа с областями, в котором слои наложены на вершину оси, в потоковом графе слои расположены так, чтобы минимизировать их "покачивание".
  • Графики потоков отображают данные только с положительными значениями и не могут представлять одновременно отрицательные и положительные значения.
  • Например, изображение справа показывает музыку, которую слушал пользователь в начале 2012 года.
Древовидная карта
Древовидная карта
  • размер
  • цвет
  • Это метод отображения иерархический данные с использованием вложенный фигуры, обычно прямоугольники.
  • Например, дисковое пространство по расположению / типу файла
Диаграмма Ганта
Диаграмма Ганта
  • цвет
  • время (поток)
Тепловая карта
Тепловая карта
  • цвет
  • категориальная переменная
  • Представляет величину явления как цвет в двух измерениях.
  • Есть две категории тепловых карт:
    • тепловая карта кластера: где величины представлены в виде матрицы фиксированного размера ячеек, строки и столбцы которой являются категориальными данными. Например, график справа.
    • пространственная тепловая карта: где нет матрицы фиксированного размера ячеек, например тепловая карта. Например, тепловая карта, показывающая плотность населения, отображаемую на географической карте.
Полосатый рисунок
Полосатый рисунок
  • позиция x
  • цвет
  • Использует серию цветных полос, упорядоченных в хронологическом порядке, для визуального отображения долгосрочных температурных трендов.
  • Изображает одну переменную - в прототипе температура с течением времени изобразить глобальное потепление
  • Умышленно минималист - без технических признаков - для интуитивного общения с людьми, не являющимися учеными[29]
  • Могут быть «сложены» для представления множественного числа (пример )
Анимированная спиральная графика
Анимированная спиральная графика
  • радиальное расстояние (зависимая переменная)
  • угол поворота (чередование месяцев)
  • цвет (уходящие годы)
  • Изображает одну зависимую переменную - в прототипе температура с течением времени изобразить глобальное потепление
  • Зависимая переменная постепенно отображается по непрерывной «спирали», определяемой как функция (а) постоянного угла поворота (двенадцать месяцев на оборот) и (б) меняющегося цвета (цвет меняется с течением времени)[30]
Коробка и участок усов
График с коробками и усами
  • ось x
  • ось y
  • Метод графического изображения групп числовых данных через их квартили.
  • Коробчатые диаграммы также могут иметь линии, выходящие из прямоугольников (усы), что указывает на изменчивость вне верхнего и нижнего квартилей.
  • Выбросы могут быть нанесены как отдельные точки.
  • Два прямоугольника, изображенные друг над другом, представляют собой средние 50% данных, при этом линия, разделяющая два прямоугольника, обозначающая медианное значение данных, а верхний и нижний края прямоугольников представляют точки данных 75-го и 25-го процентилей соответственно.
  • Коробчатые диаграммы непараметрический: они отображают вариации в образцах статистическая совокупность без каких-либо предположений об основных статистическое распределение, таким образом, полезны для получения начального понимания набора данных. Например, сравнение распределения возрастов между группой людей (например, мужчинами и женщинами).
Схема
Схема
  • Представляет рабочий процесс, процесс или пошаговый подход к решению задачи.
  • На блок-схеме шаги показаны в виде прямоугольников различного типа, а их порядок соединен с помощью стрелок.
  • Например, действия, которые необходимо предпринять, если лампа не работает, как показано на диаграмме справа.
Радарная диаграмма
Радарная диаграмма
  • атрибуты
  • значение, присвоенное атрибутам
  • Дисплеи многомерный данные в виде двумерного Диаграмма трех или более количественных переменных, представленных на осях, начиная с одной и той же точки.
  • Относительное положение и угол осей обычно неинформативны, но для сортировки переменных (осей) по относительным позициям могут применяться различные эвристические методы, такие как алгоритмы, отображающие данные как максимальную общую площадь, что позволяет выявить четкие корреляции, компромиссы и т. Д. и множество других сравнительных мер.
  • Например, сравнение атрибутов / навыков (например, коммуникативные, аналитические, ИТ-навыки), приобретенных в разных университетских степенях (например, по математике, экономике, психологии)
Диаграмма Венна
Диаграмма Венна
  • Показывает все возможный логичный отношения между конечным набором различных наборы.
  • На этих диаграммах изображены элементы как точки на плоскости, и наборы как области внутри замкнутых кривых.
  • Диаграмма Венна состоит из нескольких перекрывающихся замкнутых кривых, обычно кругов, каждая из которых представляет собой набор.
  • Точки внутри кривой помечены S представляют собой элементы множества S, а точки за пределами границы представляют элементы, не входящие в набор S. Это поддается интуитивной визуализации; например, набор всех элементов, которые являются членами обоих наборов S и Т, обозначенный SТ и прочтите "пересечение S и Т", визуально представляет собой область перекрытия регионов. S и Т. На диаграммах Венна кривые всячески перекрываются, показывая все возможные отношения между множествами.

Другие перспективы

Существуют разные подходы к сфере визуализации данных. Одним из наиболее распространенных направлений является представление информации, например, Friedman (2008). Friendly (2008) предполагает две основные части визуализации данных: статистическая графика, и тематическая картография.[31] В этой строке в статье «Визуализация данных: современные подходы» (2007) дается обзор семи предметов визуализации данных:[32]

Все эти предметы тесно связаны с графический дизайн и информационное представление.

С другой стороны, из Информатика С точки зрения перспективы, Фриц Х. Пост в 2002 году разделил это поле на подполя:[6][33]

В рамках Harvard Business Review Скотт Беринато разработал структуру подхода к визуализации данных.[34] Чтобы начать думать визуально, пользователи должны рассмотреть два вопроса; 1) что у вас есть и 2) чем вы занимаетесь. Первый шаг - определить, какие данные вы хотите визуализировать. Это основано на данных, таких как прибыль за последние десять лет или концептуальная идея, например, как устроена конкретная организация. Как только на этот вопрос ответят, можно сосредоточиться на том, пытаются ли они передать информацию (декларативная визуализация) или пытаются что-то выяснить (исследовательская визуализация). Скотт Беринато объединил эти вопросы, чтобы дать четыре типа визуального общения, каждый из которых имеет свои собственные цели.[34]

Эти четыре типа визуальной коммуникации заключаются в следующем;

  • иллюстрация идеи (концептуальная и декларативная).[34]
    • Используется для обучения, объяснения и / или просто понятий. Например, организационные диаграммы и деревья решений.
  • генерация идей (концептуальная и исследовательская).[34]
    • Используется для обнаружения, внедрения новшеств и решения проблем. Например, доска после мозгового штурма.
  • визуальное открытие (ориентированное на данные и исследовательское).[34]
    • Используется для выявления тенденций и анализа данных. Этот тип визуальных элементов чаще встречается с большими и сложными данными, где набор данных в некоторой степени неизвестен, а задача является открытой.
  • повседневная визуализация данных (декларативная и управляемая данными).[34]
    • Самый распространенный и простой тип визуализации, используемый для подтверждения и настройки контекста. Например, линейный график ВВП во времени.

Архитектура представления данных

Визуализация данных из социальные медиа

Архитектура представления данных (DPA) - это набор навыков, который направлен на идентификацию, поиск, обработку, форматирование и представление данных таким образом, чтобы оптимально передавать смысл и правильные знания.

Исторически термин архитектура представления данных приписывается Келли Лотт:[а] «Архитектура представления данных (DPA) - это редко применяемый набор навыков, критически важных для успеха и ценности Бизнес-аналитика. Архитектура представления данных объединяет науку о числах, данных и статистике в обнаружение ценной информации из данных и делая их пригодными для использования, актуальными и действенными с помощью искусства визуализации данных, коммуникации, организационная психология и управление изменениями чтобы предоставить решения для бизнес-аналитики с объемом данных, сроками доставки, форматом и визуализацией, которые будут наиболее эффективно поддерживать и управлять операционным, тактическим и стратегическим поведением для достижения понятных бизнес-(или организационных) целей. DPA не является ни ИТ, ни бизнес-навыками, а существует как отдельная область знаний. Архитектура представления данных, которую часто путают с визуализацией данных, представляет собой гораздо более широкий набор навыков, который включает определение того, какие данные по какому графику и в каком точном формате должны быть представлены, а не только лучший способ представления данных, который уже был выбран. Навыки визуализации данных - один из элементов DPA ».

Цели

DPA преследует две основные цели:

  • Использовать данные для предоставления знаний наиболее эффективным способом (минимизировать шум, сложность и ненужные данные или детали с учетом потребностей и ролей каждой аудитории)
  • Использовать данные для предоставления знаний наиболее эффективным способом (предоставлять актуальные, своевременные и полные данные каждому члену аудитории в ясной и понятной форме, которая передает важное значение, является действенной и может повлиять на понимание, поведение и решения)

Объем

Принимая во внимание вышеупомянутые цели, фактическая работа по архитектуре представления данных состоит из:

  • Создание эффективных механизмов доставки для каждого члена аудитории в зависимости от их роли, задач, местоположения и доступа к технологиям
  • Определение важного значения (соответствующих знаний), которое необходимо каждому члену аудитории в каждом контексте
  • Определение необходимой периодичности обновления данных (актуальности данных)
  • Определение правильного времени для представления данных (когда и как часто пользователю нужно просматривать данные)
  • Поиск нужных данных (предметная область, исторический охват, широта, уровень детализации и т. Д.)
  • Использование соответствующего анализа, группировки, визуализации и других форматов представления

Связанные поля

Работа DPA имеет общие черты с несколькими другими областями, в том числе:

  • Бизнес-анализ в определении бизнес-целей, сборе требований, отображении процессов.
  • Улучшение бизнес-процессов в том смысле, что его цель - улучшить и оптимизировать действия и решения для достижения бизнес-целей.
  • Визуализация данных в том смысле, что она использует хорошо зарекомендовавшие себя теории визуализации, чтобы добавить или выделить значение или важность в представлении данных.
  • Информационная архитектура, но в центре внимания информационной архитектуры неструктурированные данные и поэтому исключает как анализ (в смысле статистики / данных), так и прямое преобразование фактического содержания (данные для DPA) в новые сущности и комбинации.
  • HCI и интерактивный дизайн, поскольку многие принципы проектирования интерактивной визуализации данных были разработаны в междисциплинарной среде с HCI.
  • Визуальная журналистика и журналистика, управляемая данными или же журналистика данных: Визуальная журналистика связана со всеми типами графического облегчения рассказа новостей, а журналистика, основанная на данных, и журналистика данных не обязательно рассказывают с визуализацией данных. Тем не менее, журналистика находится на переднем крае разработки новых визуализаций данных для передачи данных.
  • Графический дизайн, передача информации через стиль, типографику, положение и другие эстетические аспекты.

Смотрите также

Примечания

  1. ^ Первое официальное, зарегистрированное и публичное использование термина «архитектура представления данных» было на трех официальных мероприятиях по запуску Microsoft Office 2007 в декабре, январе и феврале 2007–08 годов в Эдмонтоне, Калгари и Ванкувере (Канада) в презентации Келли Лотт, описывающей система бизнес-аналитики, предназначенная для повышения качества обслуживания в целлюлозно-бумажной компании. Этот термин был в дальнейшем использован и зарегистрирован в публичном употреблении 16 декабря 2009 года в презентации Microsoft Canada о ценности слияния бизнес-аналитики с корпоративными процессами совместной работы.

Рекомендации

  1. ^ Нуссбаумер Кнафлик, Коул. Повествование с помощью данных: руководство по визуализации данных для бизнес-профессионалов. ISBN  978-1-119-00225-3.
  2. ^ Гершон, Наум; Пейдж, Уорд (1 августа 2001 г.). «Что рассказывание историй может сделать для визуализации информации». Коммуникации ACM. 44 (8): 31–37. Дои:10.1145/381641.381653.
  3. ^ а б «Стивен Фью - Перцептивная грань - Выбор правильного графика для вашего сообщения - 2004» (PDF). В архиве (PDF) с оригинала на 2014-10-05. Получено 2014-09-08.
  4. ^ Виталий Фридман (2008) «Визуализация данных и инфографика» В архиве 2008-07-22 на Wayback Machine в: Графика, Monday Inspiration, 14 января 2008 г.
  5. ^ Фернанда Вьегас и Мартин Ваттенберг (19 апреля 2011 г.). «Как сделать данные сексуальными». CNN.com. Архивировано из оригинал 6 мая 2011 г.. Получено 7 мая, 2017.CS1 maint: использует параметр авторов (связь)
  6. ^ а б Фриц Х. Пост, Грегори М. Нильсон и Жорж-Пьер Бонно (2002). Визуализация данных: современное состояние. Научная статья ТУ Делфт, 2002. В архиве 2009-10-07 на Wayback Machine.
  7. ^ Тьюки, Джон (1977). Исследовательский анализ данных. Эддисон-Уэсли. ISBN  0-201-07616-0.
  8. ^ techatstate (7 августа 2013 г.). «Tech @ State: визуализация данных - основной доклад доктора Эдварда Тафте». В архиве из оригинала 29 марта 2017 г.. Получено 29 ноября 2016 - через YouTube.
  9. ^ Cleveland, W. S .; Макгилл Р. (1985). «Графическое восприятие и графические методы анализа научных данных». Наука. 229 (4716): 828–33. Дои:10.1126 / science.229.4716.828. PMID  17777913. S2CID  16342041.
  10. ^ а б c Тафт, Эдвард (1983). Визуальное отображение количественной информации. Чешир, Коннектикут: Graphics Press. ISBN  0-9613921-4-2. В архиве из оригинала на 14.01.2013. Получено 2019-08-10.
  11. ^ «Рассказывание визуальных историй о данных - Бюджетное управление Конгресса». www.cbo.gov. В архиве из оригинала от 04.12.2014. Получено 2014-11-27.
  12. ^ "Стивен Фью-Перцепционная матрица выбора граничного графа" (PDF). В архиве (PDF) с оригинала на 2014-10-05. Получено 2014-09-08.
  13. ^ а б "Стивен Фью - Сила визуального восприятия - сентябрь 2004 г." (PDF). В архиве (PDF) с оригинала на 2014-10-05. Получено 2014-10-08.
  14. ^ а б c «Визуализация данных для человеческого восприятия». Основа дизайна взаимодействия. В архиве из оригинала от 23.11.2015. Получено 2015-11-23.
  15. ^ "Визуализация" (PDF). ЮФУ. Лекция СФУ. Архивировано из оригинал (PDF) на 2016-01-22. Получено 2015-11-22.
  16. ^ Грэм, Фиона (17 апреля 2012 г.). «Могут ли изображения остановить перегрузку данных?». Новости BBC. Получено 2020-07-30.
  17. ^ а б c Дружелюбный, Майкл. «Краткая история визуализации данных». Springer-Verlag. CiteSeerX  10.1.1.446.458. Цитировать журнал требует | журнал = (помощь)
  18. ^ Уайтхаус, Д. (9 августа 2000 г.). «Обнаружена звездная карта ледникового периода». Новости BBC. В архиве из оригинала от 6 января 2018 г.. Получено 20 января 2018.
  19. ^ Драгичевич, Пьер; Янсен, Ивонн (2012). «Список физических визуализаций и связанных артефактов». В архиве из оригинала на 2018-01-13. Получено 2018-01-12.
  20. ^ Янсен, Ивонн; Драгичевич, Пьер; Изенберг, Петра; Александр, Джейсон; Карник, Абхиджит; Килдал, Йохан; Субраманиан, Шрирам; Хорнбек, Каспер (2015). «Возможности и проблемы для физикализации данных». Материалы 33-й ежегодной конференции ACM по человеческому фактору в вычислительных системах: 3227–3236. В архиве из оригинала на 2018-01-13. Получено 2018-01-12.
  21. ^ а б Дружелюбный, Майкл (2001). «Вехи в истории тематической картографии, статистической графики и визуализации данных». Архивировано из оригинал 2014-04-14.
  22. ^ Фанкхаузер, Говард Грей (январь 1936 г.). «Заметка о графике десятого века». Осирис. 1: 260–262. Дои:10.1086/368425. JSTOR  301609. S2CID  144492131.
  23. ^ Дружелюбный, Майкл (2006). «Краткая история визуализации данных» (PDF). Йоркский университет. Springer-Verlag. В архиве (PDF) из оригинала на 08.05.2016. Получено 2015-11-22.
  24. ^ «В Нью-Йорке новый учебный лагерь для специалистов по данным: это бесплатно, но попасть в него сложнее, чем в Гарвард». Венчурный бит. В архиве из оригинала от 15.02.2016. Получено 2016-02-21.
  25. ^ Интерактивная визуализация данных
  26. ^ а б Балмер, Майкл (2013). Портативное введение в анализ данных. Университет Квинсленда: Центр публикации по запросу. С. 4–5. ISBN  978-1-921723-10-0.
  27. ^ "Стивен Фью - Выбор правильного графика для сообщения - сентябрь 2004 г." (PDF). В архиве (PDF) с оригинала на 2014-10-05. Получено 2014-09-08.
  28. ^ Ленглер, Ральф; Эпплер, Мартин. J. «Периодическая таблица методов визуализации». www.visual-literacy.org. В архиве из оригинала 16 марта 2013 г.. Получено 15 марта 2013.
  29. ^ Кан, Брайан (17 июня 2019 г.). «Эта поразительная визуализация изменения климата теперь настраивается для любого места на Земле». Gizmodo. В архиве с оригинала 26 июня 2019 г. Разработано в мае 2018 г. Эд Хокинс, Университет Ридинга.
  30. ^ Муни, Крис (11 мая 2016 г.). «Этот ученый просто изменил наше представление об изменении климата с помощью одной гифки». Вашингтон Пост. В архиве из оригинала от 6 февраля 2019 г. Эд Хокинс взял эти данные о месячной температуре и построил их в виде спирали, так что для каждого года было двенадцать точек, по одной для каждого месяца, вокруг центра круга - с более высокими температурами дальше наружу и более холодными температурами ближе к центру.
  31. ^ Майкл Френдли (2008). «Вехи в истории тематической картографии, статистической графики и визуализации данных» В архиве 2008-09-11 на Wayback Machine.
  32. ^ «Визуализация данных: современные подходы» В архиве 2008-07-22 на Wayback Machine. в: Графика, 2 августа 2007 г.
  33. ^ Фриц Х. Пост, Грегори М. Нильсон и Жорж-Пьер Бонно (2002). Визуализация данных: современное состояние В архиве 2009-10-07 на Wayback Machine.
  34. ^ а б c d е ж Беринато, Скотт (июнь 2016 г.). «Визуализации, которые действительно работают». Harvard Business Review: 92–100.

дальнейшее чтение

внешняя ссылка