Дрейф концепции - Concept drift

В прогнозная аналитика и машинное обучение, то дрейф концепции означает, что статистические свойства целевой переменной, которую модель пытается предсказать, со временем изменяются непредвиденным образом. Это вызывает проблемы, потому что прогнозы становятся менее точными с течением времени.

Период, термин концепция относится к прогнозируемому количеству. В более общем смысле, он может также относиться к другим интересующим явлениям помимо целевой концепции, например к входным данным, но в контексте дрейфа концепций этот термин обычно относится к целевой переменной.

Примеры

В Обнаружение мошенничества приложение целевая концепция может быть двоичный атрибут FRAUDULENT со значениями «да» или «нет», который указывает, является ли данная транзакция мошеннической. Или в прогноз погоды приложения, может быть несколько целевых понятий, таких как ТЕМПЕРАТУРА, ДАВЛЕНИЕ и ВЛАЖНОСТЬ.

Поведение клиентов в интернет магазин может измениться со временем. Например, если нужно спрогнозировать еженедельные продажи товаров, и прогнозная модель был разработан, который работает удовлетворительно. Модель может использовать исходные данные, такие как количество денег, потраченных на Реклама, Акции выполняются и другие показатели, которые могут повлиять на продажи. Модель, вероятно, со временем будет становиться все менее и менее точной - это концептуальный дрейф. В приложении для продажи товаров одной из причин дрейфа концепции может быть сезонность, что означает сезонное изменение покупательского поведения. Возможно, в сезон зимних отпусков продажи будут выше, чем, например, летом.

Возможные способы устранения

Чтобы предотвратить ухудшение прогноз точность из-за дрейфа концепции могут быть приняты как активные, так и пассивные решения. Активные решения полагаются на механизмы запуска, например тесты на обнаружение изменений (Basseville and Nikiforov 1993; Alippi and Roveri, 2007) для явного обнаружения дрейфа концепций как изменения в статистике процесса генерации данных. В стационарных условиях любая свежая доступная информация может быть интегрирована для улучшения модели. Иными словами, когда обнаруживается дрейф концепций, текущая модель перестает быть актуальной и должна быть заменена новой для поддержания точности прогноза (Gama et al., 2004; Alippi et al., 2011). Напротив, в пассивных решениях модель постоянно обновляется, например, путем переобучения модели на последних наблюдаемых выборках (Widmer and Kubat, 1996) или применения ансамбля классификаторов (Elwell and Polikar 2011).

Контекстная информация, если таковая имеется, может использоваться для лучшего объяснения причин смещения концепций: например, в приложении для прогнозирования продаж смещение концепций может быть компенсировано добавлением информации о сезоне в модель. Предоставляя информацию о времени года, скорость износа вашей модели, вероятно, снизится, а дрейф концепций вряд ли будет полностью устранен. Это потому, что фактическое поведение при покупках не следует за статикой, конечная модель. В любое время могут возникнуть новые факторы, которые влияют на покупательское поведение, влияние известных факторов или их взаимодействие может измениться.

Нельзя избежать дрейфа концепций для сложных явлений, которые не регулируются фиксированными законы природы. Все процессы, возникающие в результате деятельности человека, такие как социально-экономический процессы и биологические процессы вероятно, произойдет дрейф концепций. Следовательно, периодическая переподготовка, также известная как обновление, любой модели необходима.

Программного обеспечения

RapidMiner: Ранее Еще одна среда обучения (YALE): бесплатное программное обеспечение с открытым исходным кодом для обнаружения знаний, интеллектуального анализа данных и машинного обучения, также включающее анализ потоков данных, изучение меняющихся во времени концепций и концепцию отслеживания дрейфа. Он используется в сочетании с подключаемым модулем интеллектуального анализа потоков данных (ранее называвшимся концептуальным плагином).
EDDM (Метод раннего обнаружения дрейфа ): бесплатная реализация методов обнаружения дрейфа с открытым исходным кодом в Weka.
MOA (массовый онлайн-анализ): бесплатное программное обеспечение с открытым исходным кодом, специально предназначенное для интеллектуального анализа потоков данных с изменением концепций. Он содержит метод предварительной оценки, методы дрейфа концепции EDDM, считыватель реальных наборов данных ARFF и генераторы искусственных потоков в виде концепций SEA, STAGGER, вращающейся гиперплоскости, случайного дерева и функций на основе случайного радиуса. MOA поддерживает двунаправленное взаимодействие с Weka.

Наборы данных

Настоящий

Репозиторий потоков данных USP, 27 наборов данных о потоках реального мира с концептуальным дрейфом, составленные Souza et al. (2020). Доступ
Авиакомпания, около 116 миллионов записей о прибытии и отправлении рейсов (очищенных и отсортированных), составленных Е. Икономовской. Ссылка: Конкурс Data Expo 2009 [1]. Доступ
Chess.com (онлайн-игры) и Люксембург (социальный опрос), составленный И. Злиобайте. Доступ
ECUE спам 2 набора данных, каждый из которых состоит из более чем 10 000 электронных писем, собранных одним человеком за период примерно 2 года. Доступ с веб-страницы С.Д. Делани
Elec2, спрос на электроэнергию, 2 класса, 45 312 экз. Источник: M. Harries, Сравнительная оценка Splice-2: Цены на электроэнергию, Технический отчет, Университет Южного Уэльса, 1999. Доступ с веб-страницы J.Gama. Комментарий по применимости.
Конкурс ПАКДД'09 данные представляют собой задачу оценки кредита. Его собирают за пятилетний период. К сожалению, настоящие метки публикуются только для первой части данных. Доступ
Датчик потока и Поток питания наборы данных доступны в репозитории интеллектуального анализа данных X. Zhu. Доступ
SMEAR поток данных теста с большим количеством пропущенных значений. Данные наблюдения за окружающей средой за 7 лет. Прогнозируйте облачность. Доступ
Текстовый майнинг, собрание интеллектуальный анализ текста наборы данных с дрейфом понятий, поддерживаемые И. Катакисом. Доступ
Набор данных дрейфа матрицы газовых сенсоров, набор из 13 910 измерений от 16 химических датчиков, используемых для компенсации дрейфа в задаче распознавания 6 газов с различными уровнями концентрации. Доступ

Другой

Конкурс KDD'99 данные содержат смоделированный вторжения в военную сетевую среду. Его часто используют в качестве эталона для оценки отклонения концепции управления. Доступ

Синтетический

Тест на экстремальную задержку проверки, Souza, V.M.A .; Silva, D.F .; Gama, J .; Батиста, G.E.A.P.A. : Классификация потоков данных на основе кластеризации в нестационарных средах и экстремальной задержки проверки. Международная конференция SIAM по интеллектуальному анализу данных (SDM), стр. 873–881, 2015. Доступ из нестационарных сред - Архив.
Наборы данных Sine, Line, Plane, Circle и Boolean, LLMinku, APWhite, X.Yao, Влияние разнообразия на онлайн-ансамблевое обучение при наличии дрейфа концепций, IEEE Transactions on Knowledge and Data Engineering, vol.22, No. 5, pp. 730–742, 2010 г. Доступ со страницы Л.Минку.
Концепции SEA, N.W.Street, Y.Kim, Алгоритм потокового ансамбля (SEA) для крупномасштабной классификации, KDD'01: Труды седьмой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных, 2001. Доступ с веб-страницы J.Gama.
ШАГГЕР, Дж. Шлиммер, Р. Х. Грейнджер, Постепенное обучение на основе зашумленных данных, Mach. ЖЖ., Том 1, № 3, 1986.
Смешанный, Дж. Гама, П. Медас, Дж. Кастильо, П. Родригес, Обучение с обнаружением дрейфа, 2004.

Фреймворки генерации данных

Л.Л.Минку, А.П.Уайт, X.Яо, Влияние разнообразия на ансамблевое обучение в режиме онлайн в условиях дрейфа концепций, IEEE Transactions on Knowledge and Data Engineering, vol.22, No. 5, pp. 730–742, 2010 . Скачать со страницы Л.Минку.
Lindstrom P, SJ Delany & B MacNamee (2008) Автопилот: моделирование меняющихся концепций в реальных данных В: Материалы 19-й ирландской конференции по искусственному интеллекту и когнитивной науке, Д. Бридж, К. Браун, Б. О'Салливан и Х. Соренсен (ред. ) p272-263 PDF
Нарасимхамурти А., Л.И. Кунчева, Фреймворк для генерации данных для моделирования изменяющейся среды, Proc. IASTED, Искусственный интеллект и приложения, Инсбрук, Австрия, 2007, 384–389 PDF Код

Проекты

ВЫВОД: Платформа вычислительного интеллекта для развивающихся и надежных систем прогнозирования (2010–2014), Борнмутский университет (Великобритания), Evonik Industries (Германия), Исследовательский и инженерный центр (Польша)
HaCDAIS: Обработка дрейфа концепций в адаптивных информационных системах (2008–2012), Технологический университет Эйндховена (Нидерланды)
KDUS: Открытие знаний из Ubiquitous Streams, INESC Porto и Лаборатория искусственного интеллекта и поддержки принятия решений (Португалия)
ПРИНЯТЬ: Методы адаптивного динамического ансамблевого прогнозирования, Манчестерский университет (Великобритания), Бристольский университет (Великобритания)
АЛАДДИН: автономные обучающие агенты для децентрализованных данных и информационных сетей (2005–2010).

Контрольные точки

NAB: Numenta Anomaly Benchmark, тест для оценки алгоритмов обнаружения аномалий в потоковых приложениях реального времени. (2014–2018 гг.)

Встречи

2014
- [2] Специальная сессия «Дрейф концепций, адаптация предметной области и обучение в динамических средах» @IEEE IJCNN 2014
2013
- RealStream Практические вызовы для семинара по интеллектуальному анализу потоков данных - обсуждение на ECML PKDD 2013, Прага, Чехия.
- LEAPS 2013 1-й международный семинар по стратегиям обучения и обработке данных в нестационарных средах
2011
- ЛИ 2011 Специальная сессия по обучению в меняющихся средах и его применению к реальным проблемам на ICMLA'11
- HaCDAIS 2011 2-й Международный семинар по преодолению дрейфа концепций в адаптивных информационных системах
- ICAIS 2011 Следите за инкрементным обучением
- IJCNN 2011 Специальная сессия по дрейфу концепций и изучению динамических сред
- CIDUE 2011 Симпозиум по вычислительному интеллекту в динамических и неопределенных средах
2010
- HaCDAIS 2010 Международный семинар по преодолению дрейфа концепций в адаптивных информационных системах: важность, проблемы и решения
- ICMLA10 Специальная сессия по динамическому обучению в нестационарной среде
- SAC 2010 Отслеживание потоков данных на симпозиуме ACM по прикладным вычислениям
- ДатчикKDD 2010 Международный семинар по открытию знаний на основе данных датчиков
- StreamKDD 2010 Новые методы анализа паттернов потоков данных
- Дрейф концепций и обучение в нестационарных средах на Всемирный конгресс IEEE по вычислительному интеллекту
- MLMDS’2010 Специальная сессия по методам машинного обучения для потоков данных на 10-й Международной конференции по интеллектуальному проектированию и приложениям, ISDA’10

Библиографические ссылки

Было опубликовано множество статей, описывающих алгоритмы обнаружения смещения концепций. Здесь только обзоры, опросы и обзоры:

Отзывы

Соуза, В. М. А., Рейс, Д. М., Малецке, А. Г., Батиста, Г. Е. А. П. А. (2020). Проблемы сравнительного анализа алгоритмов потокового обучения с реальными данными, интеллектуального анализа данных и обнаружения знаний, 1-54. https://link.springer.com/article/10.1007/s10618-020-00698-5
Кравчик Б., Минку Л.Л., Гама Дж., Стефановски Ю., Возняк М. (2017). «Ансамблевое обучение для анализа потока данных: обзор», Information Fusion, Vol 37, pp. 132–156, Доступ
Даль Поццоло, А., Бораки, Г., Келен, О., Алиппи, К., и Бонтемпи, Г. (2015). Обнаружение мошенничества с кредитными картами и адаптация концепции с задержкой контролируемой информации. В 2015 году Международная объединенная конференция по нейронным сетям (IJCNN) (стр. 1–8). IEEE. PDF
C.Alippi, "Обучение в нестационарных и развивающихся средах", глава в Интеллект для встроенных систем. Springer, 2014 г., 283 стр., ISBN 978-3-319-05278-6.
Гама, Дж., Слиобайте, И., Бифет, А., Печеницкий, М., Бучачиа, А., 2014. Обзор адаптации концепции дрейфа. Опросы ACM computing (CSUR), 46(4), с.44. PDF
C.Alippi, R.Polikar, Специальный выпуск об обучении в нестационарных и развивающихся средах, IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 25, NO. 1 ЯНВАРЯ 2014 ГОДА
Даль Поццоло, А., Келен, О., Ле Борн, Ю. А., Уотершут, С., и Бонтемпи, Г. (2014). Извлеченные уроки по обнаружению мошенничества с кредитными картами с точки зрения практикующего специалиста. Экспертные системы с приложениями, 41 (10), 4915–4928. PDF
Злиобайте И. Обучение в условиях дрейфа концепций: обзор. Технический отчет. 2009 г., факультет математики и информатики Вильнюсского университета: Вильнюс, Литва. PDF^{[постоянная мертвая ссылка ]}
Цзян Дж. Обзор литературы по адаптации статистических классификаторов к предметной области. 2008 г. PDF
Кунчева Л.И. Ансамбли классификаторов для обнаружения изменения концепции потоковых данных: Обзор и перспективы, Тр. 2-й семинар SUEMA 2008 (ECAI 2008), Патры, Греция, 2008 г., 5–10, PDF
Габер М., Заславский А., Кришнасвами С. Потоки данных для горнодобывающей промышленности: обзор, в ACM SIGMOD Record, Vol. 34, No. 1, июнь 2005 г., ISSN 0163-5808
Кунчева Л.И., Ансамбли классификаторов для изменяющейся среды, Труды 5-го Международного семинара по множественным системам классификаторов, MCS2004, Кальяри, Италия, в F. Roli, J. Kittler и T. Windeatt (Eds.), Lecture Notes in Computer Science, Vol 3077, 2004, 1–15, PDF.
Цымбал А. Проблема смещения понятий: Определения и родственные работы. Технический отчет. 2004 г., факультет компьютерных наук, Тринити-колледж: Дублин, Ирландия. PDF