Последовательный анализ паттернов - Википедия - Sequential pattern mining

Последовательный анализ паттернов это тема сбор данных занимается поиском статистически значимых закономерностей между примерами данных, в которых значения доставляются в последовательности.^[1] Обычно предполагается, что значения дискретны, и поэтому Временные ряды добыча полезных ископаемых тесно связана, но обычно считается другим видом деятельности. Последовательный анализ паттернов - это частный случай структурированный анализ данных.

В этой области решаются несколько ключевых традиционных вычислительных задач. К ним относятся создание эффективных баз данных и индексов для информации о последовательностях, извлечение часто встречающихся шаблонов, сравнение последовательностей на предмет сходства и восстановление отсутствующих членов последовательности. В общем, задачи анализа последовательности можно классифицировать как струнная добыча который обычно основан на алгоритмы обработки строк и добыча наборов элементов который обычно основан на изучение правил ассоциации. Модели локальных процессов ^[2] расширить последовательный анализ шаблонов на более сложные шаблоны, которые могут включать (исключительные) варианты выбора, циклы и конструкции параллелизма в дополнение к конструкции последовательного упорядочения.

Струнный майнинг

Строковый майнинг обычно имеет дело с ограниченным алфавит для предметов, которые появляются в последовательность, но сама последовательность обычно может быть очень длинной. Примеры алфавита могут быть приведены в ASCII набор символов, используемый в тексте на естественном языке, нуклеотид основания 'A', 'G', 'C' и 'T' в Последовательности ДНК, или же аминокислоты за белковые последовательности. В биология прикладной анализ расположения алфавита в строках может быть использован для проверки ген и белок последовательности для определения их свойств. Зная последовательность букв буквы a ДНК или белок не является самоцелью. Скорее, основная задача - понять последовательность с точки зрения ее структуры и биологическая функция. Обычно это достигается сначала путем идентификации отдельных регионов или структурных единиц в каждой последовательности, а затем присвоения функции каждой структурной единице. Во многих случаях это требует сравнения заданной последовательности с ранее изученными. Сравнение между строками усложняется, когда вставки, удаления и мутации встречаются в строке.

Обзор и систематика ключевых алгоритмов сравнения последовательностей в биоинформатике представлены Abouelhoda & Ghanem (2010), которые включают:^[3]

Проблемы, связанные с повторением: которые имеют дело с операциями над отдельными последовательностями и могут быть основаны на точное соответствие строк или же приблизительное соответствие строк методы для поиска рассредоточенных повторов фиксированной длины и максимальной длины, нахождения тандемных повторов, а также нахождения уникальных подпоследовательностей и пропущенных (не прописанных) подпоследовательностей.
Проблемы со центровкой: которые имеют дело со сравнением между строками путем первого выравнивания одной или нескольких последовательностей; примеры популярных методов включают ВЗРЫВ для сравнения одной последовательности с несколькими последовательностями в базе данных, и ClustalW для множественных выравниваний. Алгоритмы выравнивания могут быть основаны либо на точных, либо на приближенных методах, а также могут быть классифицированы как глобальные выравнивания, полуглобальные выравнивания и локальные выравнивания. Видеть выравнивание последовательностей.

Поиск предметов

Некоторые проблемы в последовательном майнинге поддаются обнаружению частых наборов элементов и порядка их появления, например, кто-то ищет правила вида «если {клиент покупает машину}, он или она, вероятно, {купит страховку} в течение 1 недели. ", или в контексте цен на акции," если {Nokia подорожает, а Ericsson подорожает}, вполне вероятно, что {Motorola подорожает, а Samsung подорожает} в течение двух дней "». Традиционно интеллектуальный анализ наборов элементов данных используется в маркетинговых приложениях для выявления закономерностей между часто встречающимися элементами в крупных транзакциях. Например, анализируя транзакции покупательских корзин в супермаркете, можно выработать правило, которое гласит: «Если клиент покупает лук и картофель вместе, он или она, вероятно, также купит мясо для гамбургеров в той же транзакции».

Обзор и таксономия ключевых алгоритмов интеллектуального анализа наборов элементов представлены Han et al. (2007).^[4]

Два общих метода, которые применяются к базам данных последовательностей для частый набор горнодобывающая промышленность оказывает влияние априорный алгоритм и более поздние FP-рост техника.

Приложения

С большим разнообразием продуктов и покупательского поведения пользователей полка, на которой выставлены продукты, является одним из самых важных ресурсов в розничной среде. Розничные торговцы могут не только увеличить свою прибыль, но и снизить затраты за счет правильного управления распределением полочного пространства и выкладкой товаров. Чтобы решить эту проблему, Джордж и Бину (2013) предложили подход к пользователю шахты. модели покупок используя алгоритм PrefixSpan, и разместите товары на полках в соответствии с порядком выработанных шаблонов закупок.^[5]

Алгоритмы

Обычно используемые алгоритмы включают:

Алгоритм GSP
Последовательное обнаружение паттернов с использованием классов эквивалентности (SPADE)
FreeSpan
PrefixSpan
MAPres^[6]
Seq2Pat (для последовательного анализа шаблонов на основе ограничений)^[7]

Смотрите также

внешняя ссылка

SPMF включает реализации с открытым исходным кодом GSP, PrefixSpan, SPADE, SPAM и многие другие.

[1] Mabroukeh, N.R .; Эзейфе, К. И. (2010). «Таксономия алгоритмов последовательного анализа шаблонов». Опросы ACM Computing. 43: 1–41. CiteSeerX 10.1.1.332.4745. Дои:10.1145/1824795.1824798. S2CID 207180619.

[2] Налог, N .; Сидорова, Н .; Haakma, R .; ван дер Аалст, Вил М. П. (2016). «Горные модели локальных процессов». Журнал инноваций в цифровых экосистемах. 3 (2): 183–196. arXiv:1606.06066. Дои:10.1016 / j.jides.2016.11.001. S2CID 10872379.

[3] Abouelhoda, M .; Ганем, М. (2010). «Струнный анализ в биоинформатике». В Габере, М. М. (ред.). Научный анализ данных и открытие знаний. Springer. Дои:10.1007/978-3-642-02788-8_9. ISBN 978-3-642-02787-1.

[4] Han, J .; Cheng, H .; Xin, D .; Ян, X. (2007). «Частый поиск паттернов: текущее состояние и будущие направления». Интеллектуальный анализ данных и обнаружение знаний. 15 (1): 55–86. Дои:10.1007 / s10618-006-0059-1.

[5] Джордж, А .; Бину, Д. (2013). «Подход к размещению товаров в супермаркетах с использованием алгоритма PrefixSpan». Журнал Университета Короля Сауда - Компьютерные и информационные науки. 25 (1): 77–87. Дои:10.1016 / j.jksuci.2012.07.001.

[6] Ахмад, Иштиак; Qazi, Wajahat M .; Хуршид, Ахмед; Ахмад, Мунир; Hoessli, Daniel C .; Хаваджа, Иффат; Чоудхари М. Икбал; Shakoori, Abdul R .; Насир-уд-Дин (1 мая 2008 г.). «MAPRes: паттерны ассоциации между предпочтительными аминокислотными остатками рядом с аминокислотами, предназначенными для посттрансляционных модификаций». Протеомика. 8 (10): 1954–1958. Дои:10.1002 / pmic.200700657. PMID 18491291.

[hosseininasab2019-7] Хоссейнинасаб А, ван Хов В.Дж., Сире А.А. (2019). «Последовательный анализ шаблонов на основе ограничений с помощью диаграмм принятия решений». Материалы конференции AAAI по искусственному интеллекту. 33: 1495–1502. Дои:10.1609 / aaai.v33i01.33011495. S2CID 53427299.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Струны
Строковая метрика	Приблизительное соответствие строк Битап алгоритм Расстояние Дамерау – Левенштейна Изменить расстояние Сопоставление гештальт-паттернов Расстояние Хэмминга Расстояние Яро – Винклера Расстояние Ли Автомат Левенштейна Расстояние Левенштейна Алгоритм Вагнера – Фишера
Алгоритм поиска строки	Алгоритм Апостолико – Джанкарло Алгоритм поиска строки Бойера – Мура Алгоритм Бойера – Мура – Хорспула Алгоритм Кнута – Морриса – Пратта Алгоритм Рабина – Карпа
Поиск по нескольким строкам	Ахо-Корасик Комментарий-алгоритм Вальтера
Регулярное выражение	Сравнение движков регулярных выражений Обычная грамматика Конструкция Томпсона Недетерминированный конечный автомат
Выравнивание последовательности	Алгоритм Хиршберга Алгоритм Нидлмана – Вунша Алгоритм Смита – Уотермана
Структура данных	DAFSA Массив суффиксов Суффикс-автомат Суффиксное дерево Обобщенное суффиксное дерево Веревка Тернарное дерево поиска Trie
Другой	Парсинг Сопоставление с образцом Сжатое сопоставление с образцом Самая длинная общая подпоследовательность Самая длинная общая подстрока Последовательный анализ паттернов Сортировка