Редактирование данных - Data editing

Редактирование данных определяется как процесс, включающий проверку и корректировку собранных данные опроса. Редактирование данных помогает определить руководящие принципы, которые уменьшат потенциальную систематическую ошибку и обеспечат согласованные оценки, ведущие к четкому анализу набора данных путем исправления несогласованных данных с использованием методов, описанных ниже в этой статье. [1] Цель - контролировать качество собранных данных.[2] Редактирование данных может выполняться вручную с помощью компьютера или их комбинации.[3]

Методы редактирования

Методы редактирования относятся к ряду процедур и процессов, используемых для обнаружения и обработки ошибок в данных. Редактирование данных используется с целью повышения качества производимых статистических данных. Эти модификации могут значительно улучшить качество аналитики, направленной на обнаружение и исправление ошибок. Примеры различных методов редактирования данных, таких как микроредактирование, редактирование макросов, выборочное редактирование, или различных инструментов, используемых для редактирования данных, таких как графическое редактирование и интерактивное редактирование.

Интерактивное редактирование

Термин интерактивное редактирование обычно используется для современного ручного редактирования с помощью компьютера. Большинство интерактивных инструментов редактирования данных, применяемых в Национальных статистических институтах (НСИ), позволяют проверять указанные изменения во время или после ввода данных и, при необходимости, немедленно исправлять ошибочные данные. Для исправления ошибочных данных можно использовать несколько подходов:

  • Свяжитесь с респондентом повторно
  • Сравните данные респондента с его данными за предыдущий год.
  • Сравните данные респондента с данными аналогичных респондентов.
  • Используйте знания предмета редактора-человека

Интерактивное редактирование - это стандартный способ редактирования данных. Его можно использовать для редактирования как категоричный и непрерывный данные.[4] Интерактивное редактирование сокращает время, необходимое для завершения циклического процесса проверки и корректировки.[5] Интерактивное редактирование также требует понимания набора данных и возможных результатов, которые могут быть получены в результате анализа данных.

Выборочное редактирование

Выборочное редактирование - это общий термин для нескольких методов выявления основных ошибок, [примечание 1] и выбросы.[заметка 2] Методы выборочного редактирования нацелены на применение интерактивного редактирования к хорошо выбранному подмножеству записей, так что ограниченное время и ресурсы, доступные для интерактивного редактирования, выделяются тем записям, где это оказывает наибольшее влияние на качество окончательных оценок опубликованных цифр. . При выборочном редактировании данные разделяются на два потока:

  • Критический поток
  • Некритический поток

Критический поток состоит из записей, которые с большей вероятностью могут содержать важные ошибки. Эти важные записи редактируются традиционным интерактивным способом. Записи в некритическом потоке, которые вряд ли будут содержать существенные ошибки, не редактируются с помощью компьютера.[6]

Методы редактирования данных

Редактирование данных может выполняться разными способами и в первую очередь зависит от исследуемого набора данных. [7]

Достоверность и полнота данных

Достоверность набора данных зависит от полноты ответов респондентов. Один из методов редактирования данных - обеспечить заполнение всех ответов в полях, требующих числового или нечислового ответа. См. Пример ниже.

Таблица полноты для редактирования данных.png

Повторяющаяся запись данных

Проверка уникальности данных является важным аспектом редактирования данных, чтобы гарантировать, что все предоставленные данные были введены только один раз. Это снижает вероятность повторения данных, которые могут исказить аналитика составление отчетов. См. Пример ниже.

Повторяющиеся записи данных в Data Editing.png

Выбросы

Обычно в наборах данных обнаруживаются выбросы, которые, как описано ранее, являются значениями, которые не соответствуют модели данных. Эти экстремальные значения могут быть найдены на основе распределения точек данных из предыдущих серий данных или параллельных серий данных для того же набора данных. Значения можно считать ошибочными и потребовать дальнейшего анализа для проверки и определения достоверности ответа. См. Пример ниже.

Выбросы в Data Editing.png

Логические несоответствия

Логическая последовательность - это наличие логических отношений и взаимозависимости между переменными. Это редактирование требует определенного понимания набора данных и способности выявлять ошибки в данных на основе предыдущих отчетов или информации. Этот тип редактирования данных используется для учета различий между полями данных или переменными. См. Пример ниже.

Редактирование макросов

Есть два метода редактирования макросов:[6]

Метод агрегирования

Этому методу следуют почти все статистические агентства перед публикацией: проверка того, что цифры, которые будут опубликованы, кажется правдоподобной. Это достигается путем сравнения количеств в таблицах публикаций с такими же количествами в предыдущих публикациях. Если наблюдается необычное значение, процедура микроредактирования применяется к отдельным записям и полям, составляющим подозрительное количество.[5]

Метод распространения

Доступные данные используются для характеристики распределение переменных. Затем все индивидуальные значения сравниваются с распределением. Записи, содержащие значения, которые могут считаться необычными (с учетом распределения), являются кандидатами для дальнейшей проверки и, возможно, для редактирования.[8]

Автоматическое редактирование

При автоматическом редактировании записи редактируются компьютером без вмешательства человека.[9] Предварительные знания о значениях одной переменной или комбинации переменных можно сформулировать в виде набора правил редактирования, которые определяют или ограничивают допустимые значения.

Детерминанты редактирования данных

Редактирование данных имеет свои ограничения, связанные с возможностями и ресурсами любого исследования. Эти детерминанты могут иметь положительное или отрицательное влияние на последующий анализ набора данных. Ниже приведены несколько определяющих факторов редактирования данных. [7]

Доступные ресурсы: [7]

  • Время, отведенное на проект
  • Деньги и бюджетные ограничения

Доступное программное обеспечение:[7]

  • Инструменты, используемые для анализа данных
  • Доступные инструменты для выявления ошибок в наборе данных
  • Мгновенная доступность программного обеспечения в зависимости от целей и задач данных

Источник данных: [7]

  • Ограничения респондентов отвечать в соответствии с ожиданиями
  • Отсутствующая информация от респондентов, которая не всегда доступна
  • Последующие действия трудно поддерживать в больших пулах данных

Согласование процедуры редактирования данных: [7]

  • Субъективные взгляды на набор данных
  • Расхождения между общими целями данных
  • Методы, используемые для редактирования данных

Смотрите также

Примечания

  1. ^ ошибки, которые существенно влияют на показатели публикации
  2. ^ значения, которые не соответствуют модели данных

Рекомендации

  1. ^ "Домашняя страница Национального центра статистики образования (NCES), часть Министерства образования США". nces.ed.gov. Получено 2020-12-06.
  2. ^ «ЕЭК ООН».
  3. ^ «Статистика: сила данных! Редактирование данных». www150.statcan.gc.ca.
  4. ^ Ваал, Тон де и др. «Справочник по редактированию и расчету статистических данных». Публикация Wiley, 2011, стр.15.
  5. ^ а б "Домашняя страница ЕЭК ООН". www.unece.org.
  6. ^ а б Ваал, Тон де и др. «Справочник по редактированию и расчету статистических данных». Публикация Wiley, 2011 г., стр.16.
  7. ^ а б c d е ж SCAD. "SCAD". SCAD. Получено 2020-12-07.
  8. ^ Вифлеем, Дж. «Прикладные методы обследования в статистической перспективе». Публикация Wiley, 2009 г., стр.205.
  9. ^ Ваал, Тон де и др. «Справочник по редактированию и расчету статистических данных». Публикация Wiley