Алгоритм GSP - Википедия - GSP algorithm

Алгоритм GSP (Обобщенный последовательный шаблон алгоритм) является алгоритм используется для последовательная добыча. Алгоритмы решения задач анализа последовательностей в основном основаны на априори (послойный) алгоритм. Один из способов использовать поэтапную парадигму - сначала обнаружить все часто встречающиеся предметы на уровне уровней. Это просто означает подсчет появления всех одноэлементных элементов в базе данных. Затем сделки фильтруются путем удаления нечастых элементов. В конце этого шага каждая транзакция состоит только из тех частых элементов, которые она изначально содержала. Эта измененная база данных становится входом в алгоритм GSP. Этот процесс требует одного прохода по всей база данных.

Алгоритм GSP выполняет несколько проходов базы данных. В первом проходе подсчитываются все отдельные элементы (1-последовательности). Из часто встречающихся элементов формируется набор кандидатных 2-последовательностей, и выполняется еще один проход для определения их частоты. Частые 2-последовательности используются для генерации кандидатных 3-последовательностей, и этот процесс повторяется до тех пор, пока не будут найдены более частые последовательности. Алгоритм состоит из двух основных этапов.

  • Генерация кандидатов. Учитывая множество частых (k-1) -частых последовательностей Fк-1, кандидаты для следующего прохода генерируются путем объединения F (k-1) с самим собой. Фаза отсечения удаляет любую последовательность, по крайней мере, одна из подпоследовательностей не является частой.
  • Поддержка подсчета. Обычно хеш-дерево –Поиск на основе данных используется для эффективного подсчета поддержки. Наконец, удаляются не максимальные частые последовательности.

Алгоритм

   F1 = множество частых 1-последовательностей k = 2, do while Fк-1 ! = Нулевой; Сгенерировать наборы кандидатов Ck (набор кандидатов k-последовательностей); Для всех входных последовательностей s в базе данных D do Увеличьте счетчик всех a в Ck если s поддерживает End do Fk = {a ∈ Ck такая, что его частота превышает порог} k = k + 1; End do Result = Набор всех частых последовательностей - это объединение всех Fkс 

Вышеупомянутый алгоритм выглядит как Алгоритм априори. Однако одним из основных отличий является создание наборов кандидатов. Предположим, что:

A → B и A → C

две частые 2-последовательности. В этих последовательностях участвуют элементы (A, B) и (A, C) соответственно. Генерация кандидатов в обычном априорном стиле даст (A, B, C) как набор из 3 элементов, но в данном контексте мы получаем следующие 3 последовательности в результате соединения указанных выше 2 последовательностей.

A → B → C, A → C → B и A → BC

Этап подготовки кандидатов учитывает это. Алгоритм GSP обнаруживает частые последовательности, учитывая временные ограничения, такие как максимальный промежуток и минимальный промежуток между элементами последовательности. Более того, он поддерживает понятие скользящего окна, то есть временного интервала, в течение которого элементы считаются принадлежащими одному событию, даже если они происходят из разных событий.

Смотрите также

Рекомендации

  • Р. Срикант и Р. Агравал. 1996. Последовательные шаблоны майнинга: обобщения и улучшения производительности. В материалах 5-й Международной конференции по расширению технологии баз данных: достижения в технологии баз данных (EDBT '96), Питер М. Г. Аперс, Мокран Бузегуб и Жорж Гардарин (ред.). Springer-Verlag, Лондон, Великобритания, 3-17 лет.
  • Пуджари, Арун К. (2001). Методы интеллектуального анализа данных. Университеты Press. ISBN  81-7371-380-4. (стр. 256-260), п. 256, при Google Книги
  • Заки, М.Дж. Машинное обучение (2001) 42:31.

внешняя ссылка

  • SPMF включает реализацию алгоритма GSP с открытым исходным кодом, а также PrefixSpan, SPADE, SPAM, ClaSP, CloSpan и BIDE.