Анализ потока данных - Data stream mining

Анализ потоков данных (также известный как потоковое обучение) - это процесс извлечения структур знаний из непрерывных и быстрых записей данных. А поток данных - это упорядоченная последовательность экземпляров, которая во многих приложениях анализа потоков данных может быть прочитана только один раз или небольшое количество раз с использованием ограниченных вычислительных возможностей и возможностей хранения.[1]

Во многих приложениях интеллектуального анализа потоков данных цель состоит в том, чтобы предсказать класс или значение новых экземпляров в потоке данных с учетом некоторых знаний о членстве в классе или значениях предыдущих экземпляров в потоке данных.[2]Методы машинного обучения могут использоваться для автоматического изучения этой задачи прогнозирования на основе помеченных примеров. Часто концепции из области постепенное обучение применяются, чтобы справиться со структурными изменениями, онлайн обучение и запросы в реальном времени. Во многих приложениях, особенно работающих в нестационарных средах, распределение, лежащее в основе экземпляров, или правила, лежащие в основе их маркировки, могут изменяться со временем, то есть цель прогнозирования, класс, который должен прогнозироваться, или целевое значение, которое необходимо прогнозировать, могут измениться. через некоторое время.[3] Эта проблема называется дрейф концепции. Обнаружение дрейф концепции является центральным вопросом при анализе потоков данных.[4][5] Другие проблемы[6] которые возникают при применении машинного обучения к потоковым данным, включают: частично и отложенные помеченные данные,[7] восстановление после понижения концепции,[1] и временные зависимости.[8]

Примеры потоков данных включают трафик компьютерной сети, телефонные разговоры, транзакции банкоматов, веб-поиск и данные датчиков. Извлечение потоков данных можно рассматривать как подполе сбор данных, машинное обучение, и открытие знаний.

Программное обеспечение для анализа потоков данных

  • MOA (массовый онлайн-анализ): бесплатное программное обеспечение с открытым исходным кодом, специально предназначенное для интеллектуального анализа потоков данных с изменением концепций. Имеет несколько алгоритмов машинного обучения (классификация, регресс, кластеризация, системы обнаружения выбросов и рекомендаций). Кроме того, он содержит метод предварительной оценки, методы дрейфа концепции EDDM, считыватель реальных наборов данных ARFF и генераторы искусственных потоков в виде концепций SEA, STAGGER, вращающаяся гиперплоскость, случайное дерево и функции на основе случайного радиуса. MOA поддерживает двунаправленное взаимодействие с Weka (машинное обучение).
  • scikit-multiflow: Платформа машинного обучения для данных с несколькими выходами / метками и потоковых данных, реализованная на Python.[9] scikit-multiflow содержит генераторы потоков, методы обучения потоков для одноцелевых и многоцелевых, детекторы смещения концепций, методы оценки и визуализации.
  • StreamDM: StreamDM - это платформа с открытым исходным кодом для анализа потоков больших данных, использующая Spark Streaming.[10] расширение основного Spark API. Одно из преимуществ StreamDM по сравнению с существующими фреймворками заключается в том, что он напрямую использует Spark Streaming API, который решает многие сложные проблемы базовых источников данных, такие как данные, вышедшие из строя, и восстановление после сбоев.
  • RapidMiner: коммерческое программное обеспечение для обнаружения знаний, интеллектуального анализа данных и машинного обучения, также включающее интеллектуальный анализ потоков данных, изучение меняющихся во времени концепций и концепцию отслеживания дрейфа (если используется в сочетании с его плагином интеллектуального анализа потоков данных (ранее: плагин Concept Drift))

События

Смотрите также

Книги

Рекомендации

  1. ^ а б Gomes, Heitor M .; Бифет, Альберт; Читай, Джесси; Барддал, Жан Поль; Энембрек, Фабрисио; Пфарингер, Бернхард; Холмс, Джефф; Абдессалем, Талел (01.10.2017). «Адаптивные случайные леса для эволюционирующей классификации потоков данных». Машинное обучение. 106 (9): 1469–1495. Дои:10.1007 / s10994-017-5642-8. ISSN  1573-0565.
  2. ^ Медхат, Мохамед; Заславский; Кришнасвами (01.06.2005). «Майнинг потоков данных». Запись ACM SIGMOD. 34 (2): 18–26. Дои:10.1145/1083784.1083789. S2CID  705946.
  3. ^ Лемэр, Винсент; Сальпервик, Кристоф; Бонду, Алексис (2015), Зимани, Эстебан; Куче, Ральф-Детлеф (ред.), "Обзор контролируемой классификации потоков данных", Business Intelligence: 4-я Европейская летняя школа, eBISS 2014, Берлин, Германия, 6–11 июля 2014 г., Учебные лекции, Конспект лекций по обработке деловой информации, Springer International Publishing, стр. 88–125, Дои:10.1007/978-3-319-17551-5_4, ISBN  978-3-319-17551-5
  4. ^ Уэбб, Джеффри I .; Ли, Лунг Куан; Петижан, Франсуа; Гёталс, Барт (2017-04-02). «Понимание дрейфа концепций». arXiv:1704.00362 [cs.LG ].
  5. ^ Гама, Жоао; Жлиобайте; Бифет; Печеницкий; Бучачиа (01.03.2014). «Обзор адаптации концепции дрейфа» (PDF). Опросы ACM Computing. 46 (4): 1–37. Дои:10.1145/2523813. S2CID  207208264.
  6. ^ Гомеш, Эйтор Мурило; Читать; Бифет; Барддал; Гама (26 ноября 2019 г.). «Машинное обучение для потоковой передачи данных». Информационный бюллетень ACM SIGKDD Explorations. 21 (2): 6–22. Дои:10.1145/3373464.3373470. S2CID  208607941.
  7. ^ Гженда, Мацей; Гомеш, Эйтор Мурило; Бифет, Альберт (2019-11-16). «Отсроченная оценка маркировки для потоков данных». Интеллектуальный анализ данных и обнаружение знаний. Дои:10.1007 / s10618-019-00654-у. ISSN  1573-756X.
  8. ^ Жлиобайте, Индре; Бифет, Альберт; Читай, Джесси; Пфарингер, Бернхард; Холмс, Джефф (2015-03-01). «Методы оценки и теория принятия решений для классификации потоковых данных с временной зависимостью». Машинное обучение. 98 (3): 455–482. Дои:10.1007 / s10994-014-5441-4. ISSN  1573-0565.
  9. ^ Монтиэль, Джейкоб; Читай, Джесси; Бифет, Альберт; Абдессалем, Талел (2018). «Scikit-Multiflow: фреймворк потоковой передачи с несколькими выходами». Журнал исследований в области машинного обучения. 19 (72): 1–5. arXiv:1807.04662. Bibcode:2018arXiv180704662M. ISSN  1533-7928.
  10. ^ Захария, Матей; Дас, Татхагата; Ли, Хаоюань; Хантер, Тимоти; Шенкер, Скотт; Стойка, Ион (2013). «Дискретизированные потоки». Материалы Двадцать четвертого симпозиума ACM по принципам операционных систем - SOSP '13. Нью-Йорк, Нью-Йорк, США: ACM Press: 423–438. Дои:10.1145/2517349.2522737. ISBN  978-1-4503-2388-8.