Распространение данных - Data proliferation

Распространение данных относится к огромному количеству данные, структурированный и неструктурированный, что предприятия и правительства продолжают генерировать беспрецедентными темпами, а удобство использования проблемы, возникающие в результате попытки хранить эти данные и управлять ими. Первоначально относящиеся к проблемам, связанным с бумагой документация, распространение данных стало серьезной проблемой в первичной и вторичной хранилище данных на компьютерах.

Несмотря на то, что цифровое хранилище стало дешевле, связанные с этим расходы, от исходной мощности до обслуживания и от метаданных до поисковых систем, не поспевают за быстрым ростом данных. Хотя мощность, необходимая для обслуживания единицы данных, снизилась, стоимость помещений, в которых размещается цифровое хранилище, имеет тенденцию к росту.[1]

На самом простом уровне компания электронное письмо системы порождают большие объемы данных. Деловая электронная почта - часть из них важна для предприятия, а часть - гораздо меньше - по оценкам, ежегодно растет со скоростью 25-30%. И независимо от того, актуально это или нет, нагрузка на систему увеличивается из-за таких методов, как множественная адресация и прикрепление большого текста, аудио и даже видео файлы.

— IBM Global Technology Services[2]

Распространение данных было задокументировано как проблема для Военные США с августа 1971 года, в частности, в отношении избыточной документации, представленной во время приобретения основных систем вооружения.[3] Усилия по уменьшению распространения данных и связанных с ним проблем продолжаются.[4]

Проблемы, вызванные

Проблема распространения данных затрагивает все области коммерции из-за наличия относительно недорогих устройств хранения данных. Это позволило очень легко выгружать данные во вторичное хранилище сразу после того, как истекло время его использования. Это маскирует проблемы, которые могут серьезно повлиять на прибыльность предприятий и эффективное функционирование служб здравоохранения, полиции и сил безопасности, местных и национальных правительств и многих других типов организаций.[2] Распространение данных проблематично по нескольким причинам:

  • Трудности при поиске и извлечении информации. В Ксерокс, в среднем сотрудникам требуется более одного часа в неделю, чтобы найти бумажные документы, стоимость управления и хранения которых составляет 2152 доллара в год. Для предприятий с более чем 10 сотрудниками это увеличивается почти до двух часов в неделю при цене 5 760 долларов в год.[5] В целом сети Из-за первичного и вторичного хранилища данных проблемы с поиском электронных данных аналогичны проблемам с поиском бумажных данных.
  • Потери данных и юридическая ответственность, когда данные дезорганизованы, не воспроизводятся должным образом или не могут быть обнаружены своевременно. В апреле 2005 г. Ameritrade Holding Corporation сообщил 200 000 текущим и прошлым клиентам, что Лента конфиденциальная информация была потеряна или уничтожена в пути. В мае того же года Time Warner Incorporated сообщил, что 40 лент с личными данными о 600 000 нынешних и бывших сотрудников были потеряны по пути в хранилище. В марте 2005 года судья Флориды, слушавший иск против Morgan Stanley на 2,7 миллиарда долларов, вынес решение "неблагоприятный вывод приказ «против компании за« умышленное и грубое нарушение своих обязательств по раскрытию информации ». Судья сослался на Morgan Stanley, который неоднократно находил неуместные записи электронных писем спустя много времени после того, как компания заявила, что передала все такие записи в суд.[6]
  • Повышенные требования к персоналу для управления все более хаотичными ресурсами хранения данных.
  • Снижение производительности сетей и приложений из-за избыточного трафика, поскольку пользователи ищут и снова ищут нужный им материал.[2]
  • Высокая стоимость энергоресурсов, необходимых для работы оборудования хранения. Система на 100 терабайт будет стоить до 35 040 долларов в год, не считая затрат на охлаждение.[7]

Предлагаемые решения

  • Приложения, которые лучше используют современные технологии
  • Уменьшение количества повторяющихся данных (особенно вызванных перемещением данных)
  • Улучшение метаданные структуры
  • Улучшение структуры передачи файлов и хранилищ
  • Обучение пользователей и дисциплина[3]
  • Реализация Управление жизненным циклом информации решения для удаления малоценной информации как можно раньше, прежде чем помещать остальную в активно управляемое долгосрочное хранилище, в котором к ней можно будет быстро и дешево получить доступ.[2]

Смотрите также

Рекомендации

  1. ^ «Уменьшение размеров цифрового чердака». Прогнозы Deloitte Technology. Архивировано из оригинал 22 июля 2011 г.
  2. ^ а б c d «Токсичный Терабайт ”, IBM Global Technology Services, июль 2006 г.
  3. ^ а б «Развитие проблемы распространения данных в рамках основных программ приобретения ВВС». Архивировано из оригинал на 2007-10-09. Получено 2007-10-09.
  4. ^ Распространение данных: прекратите это
  5. ^ «Борьба с распространением данных»; Vawn Himmelsbach. it business.ca: Canadian Technology News, 19 сентября 2006 г.
  6. ^ «Данные: утерянные, украденные или утерянные», Компьютерный мир, Безопасность
  7. ^ «Электропитание и хранение: скрытая стоимость владения», Computer Technology Review, октябрь 2003 г.