Эволюционный интеллектуальный анализ данных - Evolutionary data mining

Эволюционный интеллектуальный анализ данных, или же генетический анализ данных является Обобщающий термин для любого сбор данных с помощью эволюционные алгоритмы. Хотя его можно использовать для добычи данных из Последовательности ДНК,[1] он не ограничивается биологическим контекстом и может использоваться в любом сценарии прогнозирования на основе классификации, который помогает «предсказать значение ... заданного пользователем целевого атрибута на основе значений других атрибутов».[2] Например, банковское учреждение может захотеть предсказать, кредит будут «хорошими» или «плохими» в зависимости от их возраста, дохода и текущих сбережений.[2] Эволюционные алгоритмы интеллектуального анализа данных работают, создавая серию случайный правила должны быть проверены на тренировке набор данных.[3] Выбираются правила, наиболее точно соответствующие данным, и мутировавший.[3] Процесс повторяется много раз, и со временем возникнет правило, приближающееся к 100% -ному сходству с обучающими данными.[2] Затем это правило проверяется на тестовом наборе данных, который ранее был невидим для генетического алгоритма.[2]

Процесс

Подготовка данных

Перед базы данных можно добывать данные с использованием эволюционных алгоритмов, сначала их нужно очистить,[2] Это означает, что необходимо исправить неполные, зашумленные или противоречивые данные. Это необходимо сделать до начала майнинга, так как это поможет алгоритмам давать более точные результаты.[3]

Если данные поступают из более чем одной базы данных, они могут быть интегрированы или объединены на этом этапе.[3] При работе с большими наборами данных может быть полезно также уменьшить объем обрабатываемых данных.[3] Один из распространенных методов сокращения данных работает: нормализованный выборка данных из базы данных, что дает гораздо более быстрые, но статистически эквивалентные результаты.[3]

На этом этапе данные разделяются на два равных, но взаимоисключающих элемента: тестовый и обучающий набор данных.[2] Набор обучающих данных будет использоваться, чтобы правила могли развиваться, которые ему точно соответствуют.[2] Затем тестовый набор данных подтвердит или отклонит эти правила.[2]

Сбор данных

Эволюционные алгоритмы работают, пытаясь имитировать естественные эволюция.[3] Во-первых, в наборе обучающих данных устанавливается случайный ряд «правил», которые пытаются обобщить данные в формулы.[3] Правила проверяются, и те, которые лучше всего подходят для данных, сохраняются, правила, которые не подходят для данных, отбрасываются.[3] Затем сохраненные правила видоизменяются и умножаются для создания новых правил.[3]

Этот процесс повторяется по мере необходимости, чтобы создать правило, которое максимально соответствует набору данных.[3] Когда это правило получено, оно проверяется на тестовом наборе данных.[2] Если правило по-прежнему совпадает с данными, то оно действительно и сохраняется.[2] Если он не соответствует данным, он отбрасывается, и процесс начинается с повторного выбора случайных правил.[2]

Смотрите также

Рекомендации

  1. ^ Вай-Хо Ау, Кейт С.С. Чан и Синь Яо. «Новый эволюционный алгоритм интеллектуального анализа данных с приложениями для прогнозирования оттока», IEEE, проверено 4 декабря 2008 г.
  2. ^ а б c d е ж грамм час я j k Фрейтас, Алекс А. «Обзор эволюционных алгоритмов интеллектуального анализа данных и открытия знаний», Pontifícia Universidade Católica do Paraná, Проверено 4 декабря 2008.
  3. ^ а б c d е ж грамм час я j k Цзявэй Хан, Мишлин Камбер Интеллектуальный анализ данных: концепции и методы (2006), Морган Кауфманн, ISBN  1-55860-901-6