Строковая метрика - String metric

В математика и Информатика, а строковая метрика (также известный как метрика сходства строк или же функция расстояния до строки) это метрика это меры расстояние («обратное подобие») между двумя текстовые строки за приблизительное соответствие строк или сравнение и в поиск нечеткой строки. Требование к строке метрика (например, в отличие от соответствие строк ) является выполнением неравенство треугольника. Например, строки «Сэм» и «Самуэль» можно считать близкими.^[1] Строковая метрика представляет собой число, указывающее расстояние, зависящее от алгоритма.

Наиболее широко известная строковая метрика - элементарная, называемая Расстояние Левенштейна (также известное как расстояние редактирования).^[2] Он работает между двумя входными строками, возвращая число, эквивалентное количеству замен и удалений, необходимых для преобразования одной входной строки в другую. Упрощенные строковые метрики, такие как Расстояние Левенштейна были расширены, чтобы включить фонетические, жетон, грамматические и символьные методы статистических сравнений.

Строковые метрики широко используются в информационная интеграция и в настоящее время используются в таких областях, как Обнаружение мошенничества, анализ отпечатков пальцев, обнаружение плагиата, слияние онтологий, Анализ ДНК, Анализ РНК, анализ изображений, научно обоснованный машинное обучение, база данных дедупликация данных, сбор данных, инкрементный поиск, интеграция данных, и семантический интеграция знаний.

Список строковых показателей

Примеры выбранных строковых мер

Имя	Пример
Расстояние Хэмминга	"кароллв" и "качтв"равно 3.
Расстояние Левенштейна и Расстояние Дамерау – Левенштейна	kэтоеп и sэтояпграмм иметь расстояние 3. kиттен → sиттен (замена "k" на "s") ситтеп → ситтяп (замена «i» на «e») сижу → сижуграмм (вставка "g" в конце).
Расстояние Яро – Винклера	JaroWinklerDist («МАРТА», «МАРХТА») = ${ displaystyle d_ {j} = { frac {1} {3}} left ({ frac {m} {\| s_ {1} \|}} + { frac {m} {\| s_ {2} \| }} + { frac {mt} {m}} right) = { frac {1} {3}} left ({ frac {6} {6}} + { frac {6} {6} } + { frac {6 - { frac {2} {2}}} {6}} right) = 0,944}$ ${ displaystyle m}$ это количество совпадающие символы; ${ displaystyle t}$ это половина числа транспозиции(`«МАРТА» [3]! = H, «МАРХТА» [3]! = T`).
Наиболее часто встречающиеся символы k	MostFreqKeySimilarity ('реsеарch ',' sеекороль ', 2) = 2

внешняя ссылка

https://web.archive.org/web/20070304092115/http://www.dcs.shef.ac.uk/~sam/stringmetrics.html#qgram Достаточно полный обзор Индекс архива на Wayback Machine
Библиотека с открытым исходным кодом Университета Карнеги-Меллона
StringMetric проект а Scala библиотека строковых метрик и фонетических алгоритмов
Природный проект а JavaScript библиотека обработки естественного языка, которая включает реализации популярных строковых показателей

[1] Лу, Цзяхэн; и другие. (2013). «Меры сходства строк и соединения с синонимами». Материалы международной конференции ACM SIGMOD 2013 по управлению данными: 373–384. Дои:10.1145/2463676.2465313. ISBN 9781450320375.

[2] Наварро, Гонсало (2001). «Экскурсия по приблизительному сопоставлению строк». Опросы ACM Computing. 33 (1): 31–88. Дои:10.1145/375360.375365.

[3] Коэн, Уильям; Равикумар, Прадип; Финберг, Стивен (2003-08-01). «Сравнение показателей расстояния между строками для задач сопоставления имен»: 73–78. Цитировать журнал требует | журнал = (помощь)

[1]

[2]

[3]

Струны
Строковая метрика	Приблизительное соответствие строк Битап алгоритм Расстояние Дамерау – Левенштейна Изменить расстояние Сопоставление гештальт-паттернов Расстояние Хэмминга Расстояние Яро – Винклера Расстояние Ли Автомат Левенштейна Расстояние Левенштейна Алгоритм Вагнера – Фишера
Алгоритм поиска строки	Алгоритм Апостолико – Джанкарло Алгоритм поиска строки Бойера – Мура Алгоритм Бойера – Мура – Хорспула Алгоритм Кнута – Морриса – Пратта Алгоритм Рабина – Карпа
Поиск по нескольким строкам	Ахо-Корасик Комментарий-алгоритм Вальтера
Регулярное выражение	Сравнение движков регулярных выражений Обычная грамматика Конструкция Томпсона Недетерминированный конечный автомат
Выравнивание последовательности	Алгоритм Хиршберга Алгоритм Нидлмана – Вунша Алгоритм Смита – Уотермана
Структура данных	DAFSA Массив суффиксов Суффикс-автомат Суффиксное дерево Обобщенное суффиксное дерево Веревка Тернарное дерево поиска Trie
Другой	Парсинг Сопоставление с образцом Сжатое сопоставление с образцом Самая длинная общая подпоследовательность Самая длинная общая подстрока Последовательный анализ паттернов Сортировка

Строковая метрика - String metric

Содержание

Список строковых показателей

Примеры выбранных строковых мер

Рекомендации

внешняя ссылка