Необработанные данные - Википедия - Raw data

Два столбца справа от самого левого столбца в этой компьютеризированной таблице представляют собой необработанные данные.

Необработанные данные, также известный как первичные данные, это данные (например, числа, показания приборов, цифры и т. д.), собранные из источника. В контексте обследований необработанные данные можно описать как Предварительный Счет.

Если ученый установит компьютеризированный термометр который записывает температуру химической смеси в пробирке каждую минуту, список показаний температуры каждую минуту, распечатанный в электронной таблице или просмотренный на экране компьютера, является «необработанными данными». Необработанные данные не подвергались обработке, «очистке» исследователями с целью удаления выбросы, очевидные ошибки считывания прибора или ошибки ввода данных, или любой анализ (например, определение основная тенденция такие аспекты, как средний или же медиана результат). Кроме того, необработанные данные не подвергались никаким другим манипуляциям со стороны программного обеспечения или человека-исследователя, аналитика или техника. Его также называют начальный данные. Необработанные данные - понятие относительное (см. данные ), потому что даже после того, как необработанные данные были «очищены» и обработаны одной группой исследователей, другая группа может рассматривать эти обработанные данные как «сырые данные» для другого этапа исследования. Исходные данные могут быть введены в компьютерная программа или используется в ручных процедурах, таких как анализ статистика из опрос. Термин «необработанные данные» может относиться к двоичный данные на электронных запоминающих устройствах, таких как жесткие диски (также называемые «низкоуровневыми данными»).

Создание данных

Данные могут быть созданы или созданы двумя способами. Первый - это так называемые «захваченные данные»,[1] и обнаруживается путем целенаправленного расследования или анализа. Второй называется «выхлопные данные»,[1] и обычно собираются машинами или терминалами как второстепенная функция. Например, кассовые аппараты, смартфоны и спидометры выполняют основную функцию, но могут собирать данные в качестве второстепенной задачи. Исчерпывающие данные обычно слишком велики или бесполезны для обработки и становятся временными.[1] или выбросили.

Примеры

В вычисление, необработанные данные могут иметь следующие атрибуты: они могут содержать человеческие, машинные или инструментальные ошибки, они не могут быть проверены; это может быть в другой области (разговорный ) форматы; некодированный или неформатированный; или некоторые записи могут быть "подозрительными" (например, выбросы ), требуя подтверждение или же цитата. Например, лист ввода данных может содержать даты в виде необработанных данных во многих формах: «31 января 1999 г.», «31 января 1999 г.», «31 января 1999 г.», «31 января» или «сегодня». После захвата эти необработанные данные могут быть обработанный хранится как нормализованный формат, возможно, Юлианская дата, чтобы облегчить интерпретацию компьютерами и людьми во время последующей обработки. Необработанные данные (иногда в просторечии называемые «исходными» данными или «исходными» данными, последние - ссылка на данные, которые являются «необработанными», то есть «необработанными», например яйцо ) являются данными, входящими в обработку. Различают данные и Информация, о том, что информация является конец продукт данные обработка. Необработанные данные, прошедшие обработку, в просторечии иногда называют «приготовленными».[сомнительный ] Хотя необработанные данные могут быть преобразованы в "Информация, "извлечение, организация, анализ и форматирование для представления необходимы, прежде чем необработанные данные можно будет преобразовать в полезную информацию.

Например, кассовый терминал (POS-терминал, компьютеризированный кассовый аппарат ) в загруженном супермаркете каждый день собирает огромные объемы необработанных данных о покупках клиентов. Однако этот список продуктовых товаров и их цены, а также время и дата покупки не дают много информации, пока он не будет обработан. После обработки и анализа программное обеспечение или даже исследователем, использующим ручку, бумагу и калькулятор эти необработанные данные могут указывать на конкретные товары, которые покупает каждый клиент, когда он их покупает и по какой цене; кроме того, аналитик или менеджер могут рассчитать средние общие продажи на одного клиента или средние расходы в день недели по часам. Эти обработанные и проанализированные данные предоставляют информацию для менеджера, которую менеджер может затем использовать, чтобы помочь ему определить, например, сколько кассиров нанять и в какое время. Такой Информация может тогда стать данные для дальнейшей обработки, например, как часть прогнозного маркетинг кампания. В результате обработки необработанные данные иногда попадают в база данных, что позволяет сделать необработанные данные доступными для дальнейшей обработки и анализа множеством различных способов.

Тим Бернерс-Ли (изобретатель Всемирная паутина ) утверждает, что обмен необработанными данными важен для общества. Вдохновленный к Почта к Руфус Поллок из Фонд открытых знаний его призыв к действию «Необработанные данные сейчас», а это означает, что каждый должен требовать, чтобы правительства и предприятия обменивались данными, которые они собирают, в виде сырых данных. Он указывает, что «данные определяют огромное количество того, что происходит в нашей жизни… потому что кто-то берет данные и что-то с ними делает». Бернерс-Ли считает, что научный прогресс будет способствовать развитию науки. Защитники открытые данные утверждают, что как только граждане и организации гражданского общества получат доступ к данным от предприятий и правительств, это позволит гражданам и НПО выполнять свои собственный анализ данных, который может расширить возможности людей и гражданского общества. Например, правительство может утверждать, что его политика сокращает уровень безработицы, но бедность группа адвокации может иметь своих сотрудников эконометристы провести собственный анализ необработанных данных, что может привести эту группу к различным выводам о наборе данных.

дальнейшее чтение

Рекомендации

  1. ^ а б c Китчин, Роб (2014). Информационная революция. США: Шалфей. п. 6.