Темные данные - Dark data

Темные данные является данные который приобретается через различные компьютерные сетевые операции но никоим образом не используется для получения информации или для принимать решение.[1][2] Способность организации собирать данные может превышать пропускная способность при котором это может анализировать данные. В некоторых случаях организация может даже не знать, что данные собираются.[3] IBM по оценкам, примерно 90 процентов данных, генерируемых датчики и аналого-цифровое преобразование никогда не привыкай.[4]

В промышленном контексте данные о темноте могут включать информацию, собранную датчиками и телематика.[5]

Организации хранят скрытые данные по множеству причин, и, по оценкам, большинство компаний анализируют только 1% своих данных.[6] Часто его хранят для соответствия нормативным требованиям.[7] и ведение документации.[1] Некоторые организации считают, что скрытые данные могут быть им полезны в будущем, когда они получат более качественную аналитику и бизнес-аналитика технология обработки информации.[3] Поскольку хранение стоит недорого, хранить данные легко. Однако хранение и защита данных обычно влечет за собой большие расходы (или даже риск), чем потенциальная прибыль.[1]

Анализ

Многие темные данные неструктурированы, что означает, что информация представлена ​​в форматах, которые может быть трудно классифицировать, прочитать компьютер и, таким образом, проанализировать. Часто причина того, что бизнес не анализирует свои темные данные, заключается в том, сколько ресурсов ему потребуется, и в сложности анализа этих данных. В соответствии с Computer Weekly, 60% организаций считают, что собственные бизнес-аналитика возможность отчетности является «неадекватной», и 65% говорят, что у них «несколько неорганизованные подходы к управлению контентом».[8]

Актуальность

После того, как полезные данные станут неактуальными, они могут стать неактуальными, так как они обрабатываются недостаточно быстро. В «текущих текущих данных» это называется «скоропортящейся информацией». Например, если геолокация клиента известна бизнесу, компания может сделать предложение на основе местоположения, однако, если эти данные не обрабатываются немедленно, они могут быть неактуальными в будущем. По данным IBM, около 60 процентов данных сразу теряют свою ценность.[4]

Место хранения

Согласно Нью-Йорк Таймс, 90% энергии, используемой центрами обработки данных, тратится впустую.[9] Если данные не хранились, затраты на электроэнергию можно было сэкономить. Кроме того, существуют затраты, связанные с недоиспользованием информации и, как следствие, упущенными возможностями. По данным Datamation, "среды хранения в организациях EMEA состоят из 54 процентов темных данных, 32 процентов избыточных, устаревших и тривиальных данных и 14 процентов критически важных для бизнеса данных. К 2020 году это может добавить до 891 миллиарда долларов на хранение и расходы на управление, которые в противном случае можно было бы избежать ".[10]

Постоянное хранение темных данных может поставить организацию под угрозу, особенно если эти данные конфиденциальны. В случае нарушения это может привести к серьезным последствиям. Они могут быть финансовыми, юридическими и могут серьезно повредить репутации организации. Например, нарушение личных данных клиентов может привести к краже конфиденциальной информации, что может привести к кража личных данных. Другим примером может быть нарушение собственной конфиденциальной информации компании, например, касающейся исследования и разработки. Эти риски можно уменьшить, оценивая и проверяя, полезны ли эти данные для организации, используя надежное шифрование и безопасность.[11] и, наконец, если решено, что его нужно выбросить, его следует выбросить таким образом, чтобы его невозможно было восстановить.[12]

Будущее

Обычно считается, что по мере создания более совершенных компьютерных систем для анализа данных, тем выше будет ценность темных данных. Было отмечено, что «данные и аналитика станут основой современной промышленной революции».[5] Конечно, это включает данные, которые в настоящее время считаются «темными данными», поскольку для их обработки недостаточно ресурсов. Все эти данные, которые собираются, могут быть использованы в будущем для обеспечения максимальной производительности и способности организаций удовлетворять запросы потребителей. Технологические достижения помогают использовать эти темные данные по доступной цене благодаря молодым и инновационным компаниям, таким как Datumize, Veritas или Lucidworks. Более того, многие организации не осознают ценность скрытых данных прямо сейчас, например, организации здравоохранения и образования имеют дело с большими объемами данных, которые могут создать значительный «потенциал для обслуживания студентов и пациентов так, как это делают потребительские и финансовые услуги. преследовать свою целевую группу ".[13]

Рекомендации

  1. ^ а б c "Темные данные". Gartner.
  2. ^ Титтель, Эд (24 сентября 2014 г.). «Опасности темных данных и как свести к минимуму их воздействие». ИТ-директор.
  3. ^ а б Брантли, Билл (17.06.2015). «Брифинг API: проблема темных данных правительства». Digitalgov.gov.
  4. ^ а б Джонсон, Хизер (30 октября 2015 г.). «Копание темных данных: что ставит IBM на передний план в области экономики понимания». КремнийУГОЛ. Получено 2015-11-03.
  5. ^ а б Денни, Пол (19 февраля 2015 г.). "TeradataVoice: Фабрики будущего: ценность темных данных". Forbes. Архивировано из оригинал на 22 февраля 2015 г.
  6. ^ Шахзад, М. Ахмад (3 января 2017 г.). «Проблема трансформации больших данных в обрабатывающей промышленности». IBM Big Data & Analytics Hub.
  7. ^ «Вы эффективно используете свои темные данные?».
  8. ^ Майлз, Дуг (27 декабря 2013 г.). «Темные данные могут остановить путь больших данных к успеху». КомпьютерЕженедельно. Получено 2015-11-03.
  9. ^ Гланц, Джеймс (22 сентября 2012). «Центры обработки данных тратят огромное количество энергии, что противоречит имиджу отрасли». Нью-Йорк Таймс. Получено 2015-11-02.
  10. ^ Эрнандес, Педро (30 октября 2015 г.). «Предприятия копят« темные »данные: Veritas». Датамация. Получено 2015-11-04.
  11. ^ «DarkShield использует машинное обучение для поиска и маскировки PII». IRI. Получено 2019-01-14.
  12. ^ Титтель, Эд (24 сентября 2014 г.). «Опасности темных данных и как свести к минимуму их воздействие». ИТ-директор. Получено 2015-11-02.
  13. ^ Прага, Кристалл (30.09.2014). «Использование темных данных: вопросы и ответы с Мелиссой МакКормак». Время машинного обучения. Получено 2015-11-04.