Кластеризация суффиксного дерева - Википедия - Suffix tree clustering

Кластеризация суффиксного дерева, часто сокращенно STC - это подход к кластеризации, который использует суффиксные деревья.[1] Кластер суффиксного дерева отслеживает все н-граммы любой заданной длины для вставки в заданное слово нить, одновременно позволяя вставлять разные строки постепенно в линейном порядке. Это дает преимущество в том, что можно последовательно обрабатывать большое количество кластеров. Однако потенциальным недостатком может быть то, что это также увеличивает количество возможных документов, которые необходимо просмотреть при работе с большими наборами данные. Кластеры суффиксного дерева могут быть декомпозиционный или же агломеративный по своей природе, в зависимости от типа обрабатываемых данных.[2]

Рекомендации

  1. ^ Брэнсон, Стив; Гринберг, Ари. «Кластеризация результатов веб-поиска с использованием методов суффиксного дерева, окончательный проект CS276A» (PDF). www.stanford.edu. Стэндфордский Университет. Получено 2 января 2015.
  2. ^ Дэвис, Эрнест. «Лекция 4: Кластеризация». www.cs.nyu.edu. Нью-Йоркский университет. Получено 2 января 2015.