Изучение правил ассоциации - Википедия - Association rule learning

Изучение правил ассоциации это машинное обучение на основе правил метод обнаружения интересных отношений между переменными в больших базах данных. Он предназначен для выявления строгих правил, обнаруженных в базах данных, с использованием некоторых мер интереса.[1]

Основываясь на концепции строгих правил, Ракеш Агравал, Томаш Имелиньски и Арун Свами[2] введены ассоциативные правила для обнаружения закономерностей между продуктами в данных крупномасштабных транзакций, записываемых торговая точка (POS) системы в супермаркетах. Например, правило Данные о продажах в супермаркете указывают на то, что, если покупатель покупает лук и картофель вместе, он, вероятно, также купит мясо для гамбургеров. Такая информация может быть использована в качестве основы для принятия решений о маркетинговой деятельности, например, о рекламных ценообразование или же размещение продуктов.

В дополнение к приведенному выше примеру из анализ корзины правила ассоциации используются сегодня во многих прикладных областях, включая Майнинг использования Интернета, обнаружения вторжений, непрерывное производство, и биоинформатика. По сравнению с последовательная добыча при изучении правил ассоциации обычно не учитывается порядок элементов ни внутри транзакции, ни между транзакциями.

Определение

Пример базы данных с 5 транзакциями и 5 элементами
ID транзакциимолокохлебмасло сливочноепивоподгузники
111000
200100
300011
411100
501000

Следуя первоначальному определению Агравала, Имелински, Свами[2] проблема интеллектуального анализа ассоциативных правил определяется как:

Позволять быть набором бинарные атрибуты, называемые Предметы.

Позволять быть набором транзакций, называемых база данных.

Каждый сделка в имеет уникальный идентификатор транзакции и содержит подмножество элементов в .

А правило определяется как следствие формы:

, куда .

В Агравале, Имиелински, Свами[2] а правило определяется только между набором и одним элементом, за .

Каждое правило состоит из двух разных наборов элементов, также известных как наборы предметов, и , куда называется предшествующий или слева (LHS) и последующий или с правой стороны (RHS).

Чтобы проиллюстрировать концепции, мы используем небольшой пример из области супермаркетов. Набор предметов есть а в таблице показана небольшая база данных, содержащая элементы, где в каждой записи значение 1 означает наличие элемента в соответствующей транзакции, а значение 0 представляет отсутствие элемента в этой транзакции.

Пример правила для супермаркета: Это означает, что если покупаются масло и хлеб, клиенты покупают и молоко.

Примечание: этот пример очень маленький. В практических приложениях правилу требуется поддержка нескольких сотен транзакций, прежде чем его можно будет считать статистически значимым.[3] а наборы данных часто содержат тысячи или миллионы транзакций.

Полезные концепции

Чтобы выбрать интересные правила из множества всех возможных правил, используются ограничения на различные меры значимости и интереса. Наиболее известные ограничения - это минимальные пороговые значения поддержки и уверенности.

Позволять быть наборами предметов, правило ассоциации и набор транзакций данной базы данных.

Поддерживать

Поддержка - это показатель того, как часто набор элементов появляется в наборе данных.

Поддержка относительно определяется как доля транзакций в наборе данных, который содержит набор элементов .

В примере набора данных набор элементов имеет поддержку поскольку это происходит в 20% всех транзакций (1 транзакция из 5). Аргумент представляет собой набор предварительных условий и, таким образом, становится более ограничительным по мере роста (вместо более широкого).[4]

Кроме того, набор элементов имеет поддержку как и в 20% всех транзакций.

Уверенность

Уверенность - это показатель того, как часто правило оказывается верным.

В уверенность ценность правила, , по набору транзакций , - доля транзакций, содержащих который также содержит .

Уверенность определяется как:

Например, правило уверен в в базе данных, что означает, что для 100% транзакций, содержащих масло и хлеб, правило верно (в 100% случаев, когда клиент покупает масло и хлеб, покупается и молоко).

Обратите внимание, что означает поддержку объединения элементов в X и Y. Это несколько сбивает с толку, поскольку мы обычно думаем в терминах вероятностей События а не наборы предметов. Мы можем переписать как вероятность , куда и события, которые транзакция содержит набор элементов и , соответственно.[5]

Таким образом, уверенность можно интерпретировать как оценку условная возможность , вероятность нахождения правой части правила в транзакциях при условии, что эти транзакции также содержат левую часть правила.[4][6]

Поднимать

В поднимать правила определяется как:

или отношение наблюдаемой поддержки к ожидаемой, если бы X и Y были независимый.

Например, правило есть лифт .

Если бы у правила был подъем 1, это означало бы, что вероятность появления антецедента и вероятности консеквента не зависит друг от друга. Когда два события независимы друг от друга, никакое правило не может быть составлено для этих двух событий.

Если подъем> 1, это позволяет нам узнать, в какой степени эти два вхождения зависят друг от друга, и делает эти правила потенциально полезными для прогнозирования последствий в будущих наборах данных.

Если подъем <1, это позволяет нам знать, что элементы заменяют друг друга. Это означает, что наличие одного элемента негативно влияет на наличие другого элемента и наоборот.

Ценность подъема состоит в том, что он учитывает как поддержку правила, так и весь набор данных.[4]

Убеждение

В убеждение правила определяется как .[7]

Например, правило имеет убеждение в , и может интерпретироваться как отношение ожидаемой частоты, с которой X встречается без Y (то есть частота, с которой правило делает неверный прогноз), если X и Y были независимыми, деленное на наблюдаемую частоту неверных прогнозов. В этом примере значение убежденности 1,2 показывает, что правило было бы неверно на 20% чаще (в 1,2 раза чаще), если бы связь между X и Y была чисто случайной.

Альтернативные меры интереса

Помимо доверия, другие меры интересность для правил были предложены. Некоторые популярные меры:

  • Полное доверие[8]
  • Коллективная сила[9]
  • Использовать[10]

Еще несколько показателей представлены и сравниваются Tan et al.[11] и Хаслер.[5] Поиск методов, которые могут моделировать то, что известно пользователю (и использование этих моделей в качестве меры интереса), в настоящее время является активной исследовательской тенденцией под названием «субъективный интерес».


Процесс

Решетка часто встречающихся наборов элементов, где цвет поля указывает, сколько транзакций содержит комбинацию элементов. Обратите внимание, что нижние уровни решетки могут содержать самое большее минимальное количество элементов своих родителей; например {ac} может иметь не более Предметы. Это называется свойство закрытия вниз.[2]

Правила связывания обычно требуются для одновременного удовлетворения заданного пользователем минимального уровня поддержки и минимального уровня достоверности, определенного пользователем. Генерация правила ассоциации обычно делится на два отдельных этапа:

  1. Минимальный порог поддержки применяется для поиска всех частые наборы предметов в базе данных.
  2. К этим частым наборам элементов применяется минимальное доверительное ограничение для формирования правил.

Хотя второй шаг прост, первый требует большего внимания.

Найти все часто встречающиеся наборы элементов в базе данных сложно, поскольку он включает поиск всех возможных наборов элементов (комбинаций элементов). Набор возможных наборов элементов - это набор мощности над и имеет размер (за исключением пустого набора, который не является допустимым набором элементов). Хотя размер набора мощности растет экспоненциально по количеству элементов в , эффективный поиск возможен с помощью свойство закрытия вниз поддержки[2][12] (также называемый антимонотонность[13]), что гарантирует, что для часто встречающегося набора элементов все его подмножества также являются частыми, и, следовательно, ни один нечастый набор элементов не может быть подмножеством часто встречающегося набора элементов. Используя это свойство, эффективные алгоритмы (например, Apriori[14] и Эклат[15]) можно найти все часто используемые наборы элементов.

История

Концепция ассоциативных правил получила широкое распространение благодаря статье Agrawal et al., Опубликованной в 1993 г.,[2] который получил более 18 000 цитирований по данным Google Scholar по состоянию на август 2015 года и, таким образом, является одним из наиболее цитируемых документов в области интеллектуального анализа данных. Однако то, что сейчас называется «ассоциативными правилами», введено уже в статье 1966 года.[16] на GUHA, общий метод интеллектуального анализа данных, разработанный Петр Гайек и другие.[17]

Ранним (примерно в 1989 г.) использованием минимальной поддержки и уверенности для поиска всех ассоциативных правил была структура Feature Based Modeling, которая обнаружила все правила с и больше, чем ограничения, определенные пользователем.[18]

Статистически обоснованные ассоциации

Одним из ограничений стандартного подхода к обнаружению ассоциаций является то, что при поиске огромного числа возможных ассоциаций для поиска наборов элементов, которые кажутся связанными, существует большой риск обнаружения множества ложных ассоциаций. Это коллекции элементов, которые неожиданно часто встречаются в данных, но только случайно. Например, предположим, что мы рассматриваем коллекцию из 10 000 элементов и ищем правила, содержащие два элемента в левой части и 1 элемент в правой части. Таких правил примерно 1 000 000 000 000. Если мы применим статистический тест на независимость с уровнем значимости 0,05, это означает, что вероятность принятия правила составляет только 5%, если нет связи. Если мы предположим, что ассоциаций нет, мы все же должны ожидать найти 50 000 000 000 правил. Статистически обоснованное открытие ассоциации[19][20] контролирует этот риск, в большинстве случаев снижая риск обнаружения любой ложные ассоциации с заданным пользователем уровнем значимости.

Алгоритмы

Было предложено множество алгоритмов генерации ассоциативных правил.

Некоторые известные алгоритмы Априори, Eclat и FP-Growth, но они выполняют только половину работы, поскольку представляют собой алгоритмы для анализа часто используемых наборов элементов. Еще один шаг необходимо сделать после, чтобы сгенерировать правила из часто встречающихся наборов элементов в базе данных.

Алгоритм априори

Априори[14] использует стратегию поиска в ширину для подсчета поддержки наборов элементов и использует функцию генерации кандидатов, которая использует свойство поддержки нисходящего закрытия.

Алгоритм Eclat

Эклат[15] (альтернативный ECLAT, означает преобразование класса эквивалентности) - это поиск в глубину алгоритм, основанный на пересечении множества. Он подходит как для последовательного, так и для параллельного выполнения со свойствами повышения локальности.[21][22]

Алгоритм FP-роста

FP означает частый паттерн.[23]

На первом проходе алгоритм подсчитывает вхождения элементов (пары атрибут-значение) в наборе данных транзакций и сохраняет эти подсчеты в «таблице заголовков». Во втором проходе он строит структуру FP-tree, вставляя транзакции в три.

Элементы в каждой транзакции должны быть отсортированы в порядке убывания их частоты в наборе данных перед вставкой, чтобы дерево могло быть обработано быстро. Элементы в каждой транзакции, которые не соответствуют минимальным требованиям поддержки, отбрасываются. Если многие транзакции совместно используют самые частые элементов, FP-дерево обеспечивает высокую степень сжатия близко к корню дерева.

Рекурсивная обработка этой сжатой версии основного набора данных увеличивает частые наборы элементов напрямую, вместо того, чтобы генерировать элементы-кандидаты и проверять их на всей базе данных (как в алгоритме априори).

Рост начинается с нижней части таблицы заголовков, то есть элемента с наименьшей поддержкой, путем нахождения всех отсортированных транзакций, которые заканчиваются этим элементом. Назовите этот элемент .

Создается новое условное дерево, которое является исходным FP-деревом, спроецированным на . Поддержки всех узлов в спроектированном дереве пересчитываются, и каждый узел получает сумму подсчетов его дочерних элементов. Узлы (и, следовательно, поддеревья), не отвечающие минимальной поддержке, обрезаются. Рекурсивный рост заканчивается, когда нет отдельных элементов, обусловленных соответствовать минимальному порогу поддержки. Полученные пути от корня до будут частыми наборами предметов. После этого шага обработка продолжается со следующим наименее поддерживаемым элементом заголовка исходного FP-дерева.

После завершения рекурсивного процесса все часто встречающиеся наборы элементов будут найдены, и начнется создание правила ассоциации.[24]

Другие

АССОК

Процедура ASSOC[25] это метод GUHA, который добывает обобщенные ассоциативные правила, используя быстрый биты операции. Правила ассоциации, разработанные этим методом, являются более общими, чем те, которые выводятся априори, например, «элементы» могут быть связаны как с конъюнкцией, так и с дизъюнкциями, а отношение между антецедентом и следствием правила не ограничивается установкой минимальной поддержки и уверенности, как в apriori: можно использовать произвольную комбинацию поддерживаемых показателей интереса.

Поиск OPUS

OPUS - это эффективный алгоритм обнаружения правил, который, в отличие от большинства альтернатив, не требует ни монотонных, ни антимонотонных ограничений, таких как минимальная поддержка.[26] Первоначально использовался для поиска правил фиксированного консеквента[26][27] впоследствии он был расширен, чтобы найти правила с любым элементом в качестве следствия.[28] Поиск OPUS - это основная технология в популярной системе обнаружения ассоциаций Magnum Opus.

Лор

Известная история о разработке правил ассоциаций - это история «пива и пеленок». Предполагаемое исследование поведения покупателей супермаркетов показало, что клиенты (предположительно молодые мужчины), покупающие подгузники, также склонны покупать пиво. Этот анекдот стал популярным как пример того, как можно найти неожиданные правила ассоциации из повседневных данных. Существуют разные мнения относительно того, насколько эта история правдива.[29] Дэниел Пауэрс говорит:[29]

В 1992 году Томас Блишок, менеджер группы розничного консалтинга в Терадата, и его сотрудники подготовили анализ 1,2 миллиона рыночных корзин примерно в 25 аптеках Osco. Запросы к базе данных были разработаны для определения сходства. Анализ «обнаружил, что с 17:00 до 19:00 потребители покупали пиво и подгузники». Менеджеры Osco НЕ использовали отношения пива и подгузников, перемещая продукты ближе друг к другу на полках.

Другие типы интеллектуального анализа правил ассоциации

Правила объединения нескольких отношений: Правила сопоставления нескольких отношений (MRAR) - это правила сопоставления, в которых каждый элемент может иметь несколько отношений. Эти отношения указывают на косвенные отношения между объектами. Рассмотрим следующий MRAR, где первый элемент состоит из трех отношений жить в, рядом и влажный: "Те, кто жить в место, которое рядом город с влажный тип климата, а также моложе чем 20 -> их Состояние здоровья хороший". Такие правила ассоциации можно извлечь из данных РСУБД или данных семантической сети.[30]

Обучение контрастному набору это форма ассоциативного обучения. Контрастный набор учащихся используйте правила, которые существенно различаются по своему распределению по подмножествам.[31][32]

Взвешенное обучение в классе - это еще одна форма ассоциативного обучения, в которой весы могут быть присвоены классам, чтобы сосредоточить внимание на конкретной проблеме, вызывающей беспокойство у потребителя результатов интеллектуального анализа данных.

Обнаружение паттернов высокого порядка облегчить сбор высокоуровневых (политетических) паттернов или ассоциаций событий, которые присущи сложным реальным данным.[33]

K-оптимальное обнаружение паттернов предоставляет альтернативу стандартному подходу к изучению правил ассоциации, который требует, чтобы каждый шаблон часто появлялся в данных.

Приблизительный набор часто встречающихся элементов Mining - это упрощенная версия интеллектуального анализа Frequent Itemset, которая позволяет некоторым элементам в некоторых строках быть 0.[34]

Обобщенные правила ассоциации иерархическая таксономия (иерархия понятий)

Количественные правила ассоциации категориальные и количественные данные

Правила ассоциации интервальных данных например разделить возраст на 5-летние интервалы

Последовательный анализ паттернов обнаруживает подпоследовательности, общие для более чем minsup[требуется разъяснение ] последовательности в базе данных последовательностей, где minsup задается пользователем. Последовательность - это упорядоченный список транзакций.[35]

Подпространственная кластеризация, конкретный тип Кластеризация многомерных данных, во многих вариантах также основывается на свойстве закрытия вниз для конкретных моделей кластеризации.[36]

Теплее поставляется как часть пакета интеллектуального анализа данных ACE. Это позволяет изучать правила ассоциации для реляционных правил первого порядка.[37]

Смотрите также

Рекомендации

  1. ^ Пятецкий-Шапиро, Григорий (1991), Открытие, анализ и представление строгих правил, в Пятецкий-Шапиро Григорий; и Фроули, Уильям Дж .; ред., Открытие знаний в базах данных, AAAI / MIT Press, Кембридж, Массачусетс.
  2. ^ а б c d е ж Agrawal, R .; Имелински, Т .; Свами, А. (1993). «Правила ассоциации интеллектуального анализа данных между наборами элементов в больших базах данных». Материалы международной конференции ACM SIGMOD 1993 года по управлению данными - SIGMOD '93. п. 207. CiteSeerX  10.1.1.40.6984. Дои:10.1145/170035.170072. ISBN  978-0897915922. S2CID  490415.
  3. ^ Халид, Сайфулла (2018). «Априорный алгоритм». Прикладной вычислительный интеллект и мягкие вычисления в инженерии. Египет: Hindawi Limited. С. 288–289. ISBN  9781522531296.
  4. ^ а б c Хаслер, Майкл (2005). "Введение в arules - вычислительная среда для правил ассоциации майнинга и частых наборов элементов" (PDF). Журнал статистического программного обеспечения. Дои:10.18637 / jss.v014.i15.
  5. ^ а б Майкл Хаслер (2015). Вероятностное сравнение обычно используемых показателей процентной ставки для правил ассоциации. http://michael.hahsler.net/research/association_rules/measures.html
  6. ^ Hipp, J .; Güntzer, U .; Нахаизаде, Г. (2000). «Алгоритмы поиска ассоциативных правил --- общий обзор и сравнение». Информационный бюллетень ACM SIGKDD Explorations. 2: 58–64. CiteSeerX  10.1.1.38.5305. Дои:10.1145/360402.360421. S2CID  9248096.
  7. ^ Брин, Сергей; Мотвани, Раджив; Ульман, Джеффри Д .; Цур, Шалом (1997). «Динамический подсчет наборов товаров и правила применения для данных рыночной корзины». Материалы международной конференции ACM SIGMOD 1997 года по управлению данными - SIGMOD '97. С. 255–264. CiteSeerX  10.1.1.41.6476. Дои:10.1145/253260.253325. ISBN  978-0897919111. S2CID  15385590.
  8. ^ Омецински, Э.Р. (2003). «Альтернативные меры интереса для горных объединений в базах данных». IEEE Transactions по разработке знаний и данных. 15: 57–69. CiteSeerX  10.1.1.329.5344. Дои:10.1109 / TKDE.2003.1161582.
  9. ^ Aggarwal, Charu C .; Ю, Филип С. (1998). «Новая структура для генерации наборов элементов». Материалы семнадцатого симпозиума ACM SIGACT-SIGMOD-SIGART по принципам систем баз данных - PODS '98. С. 18–24. CiteSeerX  10.1.1.24.714. Дои:10.1145/275487.275490. ISBN  978-0897919968. S2CID  11934586.
  10. ^ Пятецкий-Шапиро Григорий; Открытие, анализ и представление строгих правил, Открытие знаний в базах данных, 1991, стр. 229-248.
  11. ^ Тан, Пан-Нин; Кумар, Випин; Шривастава, Джайдип (2004). «Выбор правильной объективной меры для анализа ассоциации». Информационные системы. 29 (4): 293–313. CiteSeerX  10.1.1.331.4740. Дои:10.1016 / S0306-4379 (03) 00072-3.
  12. ^ Тан, Пан-Нин; Михаэль, Штайнбах; Кумар, Випин (2005). «Глава 6. Анализ ассоциаций: основные концепции и алгоритмы» (PDF). Введение в интеллектуальный анализ данных. Эддисон-Уэсли. ISBN  978-0-321-32136-7.
  13. ^ Цзянь Пей; Цзявэй Хан; Лакшманан, Л.В.С. (2001). «Майнинг часто используемых наборов элементов с конвертируемыми ограничениями». Труды 17-й Международной конференции по инженерии данных. С. 433–442. CiteSeerX  10.1.1.205.2150. Дои:10.1109 / ICDE.2001.914856. ISBN  978-0-7695-1001-9. S2CID  1080975.
  14. ^ а б Агравал, Ракеш; и Шрикант, Рамакришнан; Быстрые алгоритмы для ассоциативных правил интеллектуального анализа данных в больших базах данных В архиве 2015-02-25 в Wayback Machine, в Бокке, Хорхе Б .; Ярке, Матиас; и Заниоло, Карло; редакторы, Материалы 20-й Международной конференции по очень большим базам данных (VLDB), Сантьяго, Чили, сентябрь 1994 г., страницы 487-499
  15. ^ а б Заки, М. Дж. (2000). «Масштабируемые алгоритмы поиска ассоциаций». IEEE Transactions по разработке знаний и данных. 12 (3): 372–390. CiteSeerX  10.1.1.79.9448. Дои:10.1109/69.846291.
  16. ^ Hájek, P .; Гавел, I .; Chytil, М. (1966). «Метод автоматического определения гипотез ГУА». Вычисление. 1 (4): 293–308. Дои:10.1007 / BF02345483. S2CID  10511114.
  17. ^ Гайек, Петр; Раух, Ян; Куфаль, Дэвид; Феглар, Томаш (2004). «Метод ГУХА, предварительная обработка и анализ данных». Поддержка баз данных для приложений интеллектуального анализа данных. Конспект лекций по информатике. 2682. С. 135–153. Дои:10.1007/978-3-540-44497-8_7. ISBN  978-3-540-22479-2.
  18. ^ Уэбб, Джеффри (1989). «Подход машинного обучения к студенческому моделированию». Труды Третьей Австралийской совместной конференции по искусственному интеллекту (AI 89): 195–205.
  19. ^ Уэбб, Джеффри И. (2007). «Обнаружение важных закономерностей». Машинное обучение. 68: 1–33. Дои:10.1007 / s10994-007-5006-x.
  20. ^ Гионис, Аристидес; Маннила, Хейкки; Миеликяйнен, Танели; Цапарас, Панайотис (2007). «Оценка результатов интеллектуального анализа данных с помощью рандомизации подкачки». Транзакции ACM при обнаружении знаний из данных. 1 (3): 14 – es. CiteSeerX  10.1.1.141.2607. Дои:10.1145/1297332.1297338. S2CID  52305658.
  21. ^ Заки, Мохаммед Джавид; Партхасарати, Шринивасан; Огихара, Мицунори; Ли, Вэй (1997). «Новые алгоритмы для быстрого обнаружения правил ассоциации»: 283–286. CiteSeerX  10.1.1.42.3283. HDL:1802/501. Цитировать журнал требует | журнал = (помощь)
  22. ^ Заки, Мохаммед Дж .; Партхасарати, Шринивасан; Огихара, Мицунори; Ли, Вэй (1997). «Параллельные алгоритмы обнаружения правил ассоциации». Интеллектуальный анализ данных и обнаружение знаний. 1 (4): 343–373. Дои:10.1023 / А: 1009773317876. S2CID  10038675.
  23. ^ Хан (2000). «Частые модели майнинга без генерации кандидатов». Материалы международной конференции ACM SIGMOD 2000 года по управлению данными - SIGMOD '00. Материалы Международной конференции ACM SIGMOD 2000 года по управлению данными. SIGMOD '00. С. 1–12. CiteSeerX  10.1.1.40.4436. Дои:10.1145/342009.335372. ISBN  978-1581132175. S2CID  6059661.
  24. ^ Виттен, Франк, Холл: Практические инструменты и методы машинного обучения интеллектуального анализа данных, 3-е издание[страница нужна ]
  25. ^ Гайек, Петр; Гавранек, Томаш (1978). Механизация формирования гипотез: математические основы общей теории. Springer-Verlag. ISBN  978-3-540-08738-0.
  26. ^ а б Уэбб, Джеффри И. (1995); OPUS: эффективный допустимый алгоритм неупорядоченного поиска, Журнал исследований искусственного интеллекта 3, Менло-Парк, Калифорния: AAAI Press, стр. 431-465. онлайн доступ
  27. ^ Баярдо, Роберто Дж., Мл .; Агравал, Ракеш; Гунопулос, Димитриос (2000). «Интеллектуальный анализ правил на основе ограничений в больших и плотных базах данных». Интеллектуальный анализ данных и обнаружение знаний. 4 (2): 217–240. Дои:10.1023 / А: 1009895914772. S2CID  5120441.
  28. ^ Уэбб, Джеффри И. (2000). «Эффективный поиск ассоциативных правил». Материалы шестой международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных - KDD '00. С. 99–107. CiteSeerX  10.1.1.33.1309. Дои:10.1145/347090.347112. ISBN  978-1581132335. S2CID  5444097.
  29. ^ а б "Новости DSS: Том 3, № 23".
  30. ^ Рамезани, Реза, Мохамад Сунни и Мохаммад Али Нематбахш; MRAR: Mining Multi-Relation Association Rules, Journal of Computing and Security, 1, no. 2 (2014)
  31. ^ Дж. Уэбб, С. Батлер и Д. Ньюлендс (2003). Об обнаружении различий между группами. KDD'03 Материалы девятой Международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных.
  32. ^ Menzies, T .; Инь Ху (2003). «Практика вычислений - интеллектуальный анализ данных для очень занятых людей». Компьютер. 36 (11): 22–29. Дои:10.1109 / MC.2003.1244531.
  33. ^ Wong, A.K.C .; Ян Ван (1997). «Обнаружение паттернов высокого порядка из дискретных данных». IEEE Transactions по разработке знаний и данных. 9 (6): 877–893. CiteSeerX  10.1.1.189.1704. Дои:10.1109/69.649314.
  34. ^ Лю, Цзиньцзы; Полсен, Сьюзен; Солнце, Син; Ван, Вэй; Нобель, Андрей; Принс, янв (2006). «Майнинг приблизительных наборов часто встречающихся элементов в присутствии шума: алгоритм и анализ». Материалы Международной конференции SIAM по интеллектуальному анализу данных 2006 г.. С. 407–418. CiteSeerX  10.1.1.215.3599. Дои:10.1137/1.9781611972764.36. ISBN  978-0-89871-611-5.
  35. ^ Заки, Мохаммед Дж. (2001); SPADE: эффективный алгоритм для майнинга частых последовательностей, Machine Learning Journal, 42, стр. 31–60.
  36. ^ Зимек, Артур; Согласие, Ира; Врекен, Джилл (2014). Частая разработка паттернов. С. 403–423. Дои:10.1007/978-3-319-07821-2_16. ISBN  978-3-319-07820-5.
  37. ^ King, R.D .; Srinivasan, A .; Дехаспе, Л. (февраль 2001 г.). «Warmr: инструмент интеллектуального анализа данных для химических данных». J Comput Aided Mol Des. 15 (2): 173–81. Bibcode:2001JCAMD..15..173K. Дои:10.1023 / А: 1008171016861. PMID  11272703. S2CID  3055046.

Библиографии