Краткая структура данных - Succinct data structure

В Информатика, а лаконичная структура данных это структура данных который занимает пространство, "близкое" к теоретико-информационный нижняя граница, но (в отличие от других сжатых представлений) по-прежнему позволяет выполнять эффективные операции запроса. Первоначально эта концепция была представлена Якобсоном.^[1] закодировать битовые векторы, (без ярлыка) деревья, и планарные графы. В отличие от общего сжатие данных без потерь алгоритмы, сжатые структуры данных сохраняют возможность использовать их на месте, не распаковывая их предварительно. Связанное с этим понятие - понятие сжатая структура данных, в котором размер структуры данных зависит от конкретных представляемых данных.

Предположим, что ${displaystyle Z}$ это оптимальное с теоретической точки зрения количество бит, необходимое для хранения некоторых данных. Представление этих данных называется:

скрытый если потребуется ${displaystyle Z + O (1)}$ кусочки космоса,
лаконичный если потребуется ${displaystyle Z + o (Z)}$ кусочки пространства, и
компактный если потребуется ${displaystyle O (Z)}$ биты пространства.

Например, структура данных, использующая ${displaystyle 2Z}$ бит памяти компактен, ${displaystyle Z + {sqrt {Z}}}$ бит лаконичен, ${displaystyle Z + lg Z}$ биты также лаконичны, и ${displaystyle Z + 3}$ бит неявно.

Таким образом, неявные структуры обычно сводятся к хранению информации с использованием некоторой перестановки входных данных; самый известный пример этого - куча.

Краткие словари

Краткие индексируемые словари, также называемые ранг / выбор словари, составляют основу ряда лаконичных техник представления, в том числе бинарные деревья, ${displaystyle k}$ -арные деревья и мультимножества,^[2] а также суффиксные деревья и массивы.^[3] Основная проблема - сохранить подмножество ${displaystyle S}$ Вселенной ${displaystyle U = [0dots n) = {0,1, dots, n-1}}.$ , обычно представлен в виде битового массива ${displaystyle B [0dots n)}$ куда ${displaystyle B [i] = 1}$ если только ${displaystyle iin S.}$ Индексируемый словарь поддерживает обычные методы для словарей (запросы и вставки / удаления в динамическом случае), а также следующие операции:

${displaystyle mathbf {rank} _ {q} (x) = | {kin [0dots x]: B [k] = q} |}$
${displaystyle mathbf {select} _ {q} (x) = min {kin [0dots n): mathbf {rank} _ {q} (k) = x}}$

за ${displaystyle qin {0,1}}$ .

Другими словами, ${displaystyle mathbf {rank} _ {q} (x)}$ возвращает количество элементов, равное ${displaystyle q}$ до позиции ${displaystyle x}$ пока ${displaystyle mathbf {select} _ {q} (x)}$ возвращает позицию ${displaystyle x}$ -е появление ${displaystyle q}$ .

Есть простое представление^[4] который использует ${displaystyle n + o (n)}$ бит пространства хранения (исходный битовый массив и ${displaystyle o (n)}$ вспомогательная конструкция) и опоры классифицировать и Выбрать в постоянное время. Он использует идею, аналогичную идее запросы с минимальным диапазоном; перед тем, как остановиться на подзадаче ограниченного размера, выполняется постоянное количество рекурсий. Битовый массив ${displaystyle B}$ разделен на большие блоки размера ${displaystyle l = lg ^ {2} n}$ биты и маленькие блоки размера ${displaystyle s = lg n / 2}$ биты. Для каждого большого блока ранг его первого бита хранится в отдельной таблице. ${displaystyle R_ {l} [0 точек n / l)}$ ; каждая такая запись занимает ${displaystyle lg n}$ бит в общей сложности ${displaystyle (n / l) lg n = n / lg n}$ бит памяти. В большом блоке другой каталог ${displaystyle R_ {s} [0dots l / s)}$ хранит ранг каждого из ${displaystyle l / s = 2lg n}$ небольшие блоки, которые он содержит. Разница здесь в том, что ему нужно только ${displaystyle lg l = lg lg ^ {2} n = 2lg lg n}$ битов для каждой записи, так как нужно сохранять только отличия от ранга первого бита в содержащем большом блоке. Таким образом, эта таблица занимает всего ${displaystyle (n / s) lg l = 4nlg lg n / lg n}$ биты. Таблица поиска ${displaystyle R_ {p}}$ затем можно использовать, который хранит ответ на каждый возможный запрос ранжирования в битовой строке длиной ${displaystyle s}$ за ${displaystyle iin [0, s)}$ ; это требует ${displaystyle 2 ^ {s} slg s = O ({sqrt {n}} lg nlg lg n)}$ бит места для хранения. Таким образом, поскольку каждая из этих вспомогательных таблиц принимает ${displaystyle o (n)}$ пространство, эта структура данных поддерживает ранговые запросы в ${displaystyle O (1)}$ время и ${displaystyle n + o (n)}$ биты пространства.

Чтобы ответить на запрос для ${displaystyle mathbf {rank} _ {1} (x)}$ за постоянное время алгоритм постоянного времени вычисляет:

${displaystyle mathbf {rank} _ {1} (x) = R_ {l} [lfloor x / lfloor] + R_ {s} [lfloor x / sfloor] + R_ {p} [xlfloor x / sfloor, x {ext { mod}} s]}$

На практике таблица поиска ${displaystyle R_ {p}}$ могут быть заменены поразрядными операциями и меньшими таблицами, которые можно использовать для определения количества битов, установленных в небольших блоках. Это часто бывает выгодно, поскольку сжатые структуры данных находят свое применение в больших наборах данных, и в этом случае пропуски кеша становятся намного более частыми, и шансы вытеснения таблицы поиска из более близких кешей ЦП становятся выше.^[5] Запросы выбора можно легко поддерживать, выполняя двоичный поиск в той же вспомогательной структуре, которая используется для классифицировать; однако это требует ${displaystyle O (lg n)}$ время в худшем случае. Более сложная структура с использованием ${displaystyle 3n / lg lg n + O ({sqrt {n}} lg nlg lg n) = o (n)}$ биты дополнительного хранилища могут использоваться для поддержки Выбрать в постоянное время.^[6] На практике многие из этих решений имеют скрытые константы в ${displaystyle O (cdot)}$ обозначения, которые преобладают до того, как станет очевидным какое-либо асимптотическое преимущество; реализации с использованием широких слов и блоков, выровненных по словам, на практике часто работают лучше.^[7]

Энтропийно сжатые словари

В ${displaystyle n + o (n)}$ космический подход можно улучшить, отметив, что есть ${displaystyle extstyle {inom {n} {m}}}$ отчетливый ${displaystyle m}$ -подмножества ${displaystyle [n)}$ (или двоичные строки длины ${displaystyle n}$ с точно ${displaystyle m}$ 1), и, таким образом, ${displaystyle extstyle {mathcal {B}} (m, n) = lceil lg {inom {n} {m}} ceil}$ теоретико-информационная нижняя граница количества битов, необходимых для хранения ${displaystyle B}$ . Существует краткий (статический) словарь, который достигает этой границы, а именно, используя ${displaystyle {mathcal {B}} (m, n) + o ({mathcal {B}} (m, n))}$ Космос.^[8] Эта структура может быть расширена для поддержки классифицировать и Выбрать запросы и принимает ${displaystyle {mathcal {B}} (m, n) + O (m + nlg lg n / lg n)}$ Космос.^[2] Правильный классифицировать однако запросы в этой структуре ограничены элементами, содержащимися в наборе, аналогично тому, как работают минимальные идеальные хеш-функции. Эту границу можно свести к компромиссу между пространством и временем, сократив пространство для хранения словаря до ${displaystyle {mathcal {B}} (m, n) + O (nt ^ {t} / lg ^ {t} n + n ^ {3/4})}$ с запросами, принимающими ${displaystyle O (t)}$ время.^[9]

Примеры

А строка с завершающим нулем (C строка ) берет Z +1 пробел и, следовательно, неявно. Строка произвольной длины (Строка Паскаля ) берет Z + журнал (Z) пространство и, таким образом, является лаконичным. Если есть максимальная длина - что имеет место на практике, поскольку 2³² = 4 ГиБ данных - очень длинная строка, а 2⁶⁴ = 16 EiB данных больше, чем любая строка на практике - тогда строка с длиной также неявна, принимая Z + k пространство, где k - количество данных, представляющих максимальную длину (например, 64 бита).

Когда необходимо закодировать последовательность элементов переменной длины (например, строк), существуют различные возможности. Прямой подход состоит в том, чтобы сохранить длину и элемент в каждой записи - затем их можно разместить один за другим. Это позволяет эффективный следующий, но не находит kй пункт. Альтернативой является размещение элементов по порядку с разделителем (например, строка с завершающим нулем ). При этом вместо длины используется разделитель, что значительно медленнее, так как всю последовательность необходимо сканировать на наличие разделителей. Оба они занимают мало места. Альтернативный подход - внеполосное разделение: элементы можно просто разместить один за другим без разделителей. Затем границы элементов могут быть сохранены как последовательность длины или, лучше сказать, смещений в этой последовательности. В качестве альтернативы, вместе с ним кодируется отдельная двоичная строка, состоящая из единиц в позициях, где начинается элемент, и нулей во всех остальных местах. Учитывая эту строку, ${displaystyle select}$ функция может быстро определить, где начинается каждый элемент, по его индексу.^[10] Это компактный но нет лаконично, как нужно 2Z пространство, которое есть O (Z).

Другой пример - представление двоичное дерево: произвольное двоичное дерево на ${displaystyle n}$ узлы могут быть представлены в ${displaystyle 2n + o (n)}$ битов, поддерживая при этом различные операции на любом узле, включая поиск его родителя, его левого и правого дочерних элементов и возврат размера его поддерева, каждое в постоянное время. Количество различных бинарных деревьев на ${displaystyle n}$ узлы ${displaystyle {binom {2n} {n}}}$ ${displaystyle / (n + 1)}$ . Для больших ${displaystyle n}$ , речь идет о ${displaystyle 4 ^ {n}}$ ; таким образом нам нужно как минимум около ${displaystyle log _ {2} (4 ^ {n}) = 2n}$ биты для его кодирования. Таким образом, сжатое двоичное дерево заняло бы только ${displaystyle 2}$ бит на узел.