Предварительная обработка данных - Википедия - Data pre-processing

Предварительная обработка данных важный шаг в сбор данных процесс. Фраза "мусор на входе, мусор на выходе" особенно применимо к сбор данных и машинное обучение проекты. Сбор данных методы часто плохо контролируются, что приводит к вне диапазона значения (например, доход: −100), невозможные комбинации данных (например, пол: мужской, беременный: да) и недостающие значения и т. д. Анализ данных, которые не были тщательно проверены на наличие таких проблем, может привести к неверным результатам. Таким образом, представление и качество данных прежде всего перед выполнением любого анализа.[1] Часто предварительная обработка данных является наиболее важным этапом машинное обучение проект, особенно в вычислительная биология.[2]

Если имеется много нерелевантной и избыточной информации или зашумленных и ненадежных данных, тогда открытие знаний во время фазы обучения сложнее. Этапы подготовки и фильтрации данных могут занять значительное время обработки. Предварительная обработка данных включает уборка, Выбор экземпляра, нормализация, трансформация, извлечение признаков и отбор и т. д. Продукт предварительной обработки данных является конечным Обучающий набор.

Предварительная обработка данных может повлиять на способ интерпретации результатов окончательной обработки данных. [3] Этот аспект следует тщательно учитывать, когда интерпретация результатов является ключевым моментом, например, при многомерной обработке химических данных (хемометрия ).

Задачи предварительной обработки данных

Пример

В этом примере у нас есть 5 взрослых в нашем наборе данных, которые имеют пол мужской или женский, независимо от того, беременны они или нет. Мы можем обнаружить, что Adult 3 и 5 - невозможные комбинации данных.

СексБеременная
Взрослый
1МужскойНет
2женскийда
3Мужскойда
4женскийНет
5Мужскойда

Мы можем выполнить Очистка данных и выберите удаление таких данных из нашей таблицы. Мы удаляем такие данные, потому что можем определить, что такие данные, существующие в наборе данных, вызваны ошибками ввода пользователем или повреждением данных. Причина, по которой может потребоваться удалить такие данные, заключается в том, что невозможные данные будут влиять на процесс вычисления или обработки данных на более поздних этапах процесса интеллектуального анализа данных.

СексБеременная
Взрослый
1МужскойНет
2женскийда
4женскийНет

Мы можем выполнить Редактирование данных и изменить пол взрослого, зная, что взрослый беременен, мы можем сделать предположение, что взрослый - женщина, и внести соответствующие изменения. Мы редактируем набор данных, чтобы иметь более четкий анализ данных при выполнении манипуляций с данными на более поздних этапах процесса интеллектуального анализа данных.

СексБеременная
Взрослый
1МужскойНет
2женскийда
3женскийда
4женскийНет
5женскийда

Мы можем использовать форму Сжатие данных и отсортируем данные по полу, и тем самым мы сможем упростить наш набор данных и выбрать, на каком полу мы хотим сосредоточиться больше.

СексБеременная
Взрослый
2женскийда
4женскийНет
1МужскойНет
3Мужскойда
5Мужскойда

Сбор данных

Истоки предварительной обработки данных находятся в сбор данных.[4] Идея состоит в том, чтобы агрегировать существующую информацию и искать по содержанию. Позже было признано, что для машинного обучения и нейронных сетей необходим этап предварительной обработки данных. Таким образом, это стало универсальной техникой, которая используется в вычислениях в целом.

Предварительная обработка данных позволяет удалять нежелательные данные с помощью очистки данных, это позволяет пользователю иметь набор данных, содержащий более ценную информацию после этапа предварительной обработки для манипулирования данными позже в процессе интеллектуального анализа данных. Редактирование такого набора данных для исправления искажения данных или человеческой ошибки является важным шагом для получения точных количественных показателей, таких как истинные положительные результаты, истинные отрицания и т. Д.Ложные срабатывания и ложные отрицания найдено в Матрица путаницы которые обычно используются для медицинской диагностики. Пользователи могут объединять файлы данных вместе и использовать предварительную обработку для фильтрации любого ненужного шума из данных, что может обеспечить более высокую точность. Пользователи используют сценарии программирования Python в сопровождении библиотеки pandas, которая дает им возможность импортировать данные из Значения, разделенные запятыми как фрейм данных. Затем фрейм данных используется для управления данными, которые в противном случае могут быть затруднены в Excel. панды (программное обеспечение) это мощный инструмент, позволяющий анализировать и обрабатывать данные; что значительно упрощает визуализацию данных, статистические операции и многое другое. Многие также используют R (язык программирования) делать и такие задачи.

Причина, по которой пользователь преобразовывает существующие файлы в новые, заключается по многим причинам. Целью предварительной обработки данных является добавление недостающих значений, агрегированная информация, маркировка данных категориями (Биннинг данных ) и сгладить траекторию.[5] Более продвинутые методы, такие как анализ основных компонентов и выбор функции работают со статистическими формулами и применяются к сложным наборам данных, которые записываются GPS-трекерами и устройствами захвата движения.

Предварительная обработка семантических данных

Сложные проблемы требуют более сложных методов анализа существующей информации. Вместо создания простого сценария для объединения разных числовых значений в одно имеет смысл сосредоточиться на предварительной обработке данных на основе семантики.[6] Вот идея построить специальный онтология который объясняет на более высоком уровне, в чем проблема.[7] В Protégé (программное обеспечение) стандартный инструмент для этой цели.[8] Второй более продвинутый метод - Нечеткая предварительная обработка. Вот идея обосновать числовые значения лингвистической информацией. Исходные данные преобразуются в естественный язык.

Рекомендации

  1. ^ Пайл, Д., 1999. Подготовка данных для интеллектуального анализа данных. Издательство Морган Кауфманн, Лос Альтос, Калифорния.
  2. ^ Chicco D (декабрь 2017 г.). «Десять быстрых советов по машинному обучению в вычислительной биологии». BioData Mining. 10 (35): 35. Дои:10.1186 / s13040-017-0155-3. ЧВК  5721660. PMID  29234465.
  3. ^ Оливери, Паоло; Малегори, Кристина; Симонетти, Ремо; Казале, Моника (2019). «Влияние предварительной обработки сигналов на окончательную интерпретацию аналитических результатов - Учебное пособие». Analytica Chimica Acta. 1058: 9–17. Дои:10.1016 / j.aca.2018.10.055. PMID  30851858.
  4. ^ Аласади, Суад А. и Бхайя, Весам С. (2017). «Обзор методов предварительной обработки данных при интеллектуальном анализе данных». Журнал инженерных и прикладных наук. 12 (16): 4102–4107.CS1 maint: несколько имен: список авторов (связь)
  5. ^ Аласади, Суад А. и Бхайя, Весам С. (2017). «Обзор методов предварительной обработки данных при интеллектуальном анализе данных». Журнал инженерных и прикладных наук. 12 (16): 4102–4107.CS1 maint: несколько имен: список авторов (связь)
  6. ^ Калмоне, Розарио и Фальчони, Марко и Квадрини, Микела (2014). Онтологический фреймворк для предварительной обработки семантических данных с целью распознавания человеческой деятельности. SEMAPRO 2014: Восьмая международная конференция по достижениям в семантической обработке. Алексей Чепцов, Центр высокопроизводительных вычислений в Штутгарте (HLRS). S2CID  196091422.CS1 maint: несколько имен: список авторов (связь)
  7. ^ Дэвид Перес-Рей, Альберто Ангита и Хосе Креспо (2006). OntoDataClean: интеграция на основе онтологий и предварительная обработка распределенных данных. Анализ биологических и медицинских данных. Springer Berlin Heidelberg. С. 262–272. Дои:10.1007/11946465_24.
  8. ^ Ф. Мэри Харин Фернандес и Р. Поннусами (2016). «Предварительная обработка и очистка данных в онтологии веб-журнала для улучшенного принятия решений». Индийский журнал науки и технологий. Индийское общество образования и окружающей среды. 9 (10). Дои:10.17485 / ijst / 2016 / v9i10 / 88899.

внешняя ссылка