Строковая метрика - String metric
В математика и Информатика, а строковая метрика (также известный как метрика сходства строк или же функция расстояния до строки) это метрика это меры расстояние («обратное подобие») между двумя текстовые строки за приблизительное соответствие строк или сравнение и в поиск нечеткой строки. Требование к строке метрика (например, в отличие от соответствие строк ) является выполнением неравенство треугольника. Например, строки «Сэм» и «Самуэль» можно считать близкими.[1] Строковая метрика представляет собой число, указывающее расстояние, зависящее от алгоритма.
Наиболее широко известная строковая метрика - элементарная, называемая Расстояние Левенштейна (также известное как расстояние редактирования).[2] Он работает между двумя входными строками, возвращая число, эквивалентное количеству замен и удалений, необходимых для преобразования одной входной строки в другую. Упрощенные строковые метрики, такие как Расстояние Левенштейна были расширены, чтобы включить фонетические, жетон, грамматические и символьные методы статистических сравнений.
Строковые метрики широко используются в информационная интеграция и в настоящее время используются в таких областях, как Обнаружение мошенничества, анализ отпечатков пальцев, обнаружение плагиата, слияние онтологий, Анализ ДНК, Анализ РНК, анализ изображений, научно обоснованный машинное обучение, база данных дедупликация данных, сбор данных, инкрементный поиск, интеграция данных, и семантический интеграция знаний.
Список строковых показателей
- Расстояние Левенштейна, или его обобщение редактировать расстояние
- Расстояние Дамерау – Левенштейна
- Коэффициент Соренсена – Дайса
- Блокировать расстояние или же L1 расстояние или же Расстояние от городского квартала
- Расстояние Хэмминга
- Расстояние Яро – Винклера
- Коэффициент простого соответствия (SMC)
- Сходство Жаккара или же Коэффициент Жаккара или же Коэффициент Танимото
- Индекс Тверски
- Коэффициент перекрытия
- Вариационное расстояние
- Расстояние Хеллингера или же Бхаттачарья расстояние
- Информационный радиус (Расхождение Дженсена – Шеннона )
- Косая дивергенция
- Вероятность путаницы
- Метрика тау, приближение Дивергенция Кульбака – Лейблера
- Метрика Феллеги и Сантерса (SFS)
- Максимальные совпадения
- Расстояние на основе грамматики
- TFIDF метрика расстояния[3]
Примеры выбранных строковых мер
Имя | Пример |
---|---|
Расстояние Хэмминга | "кароллв" и "качтв"равно 3. |
Расстояние Левенштейна и Расстояние Дамерау – Левенштейна | kэтоеп и sэтояпграмм иметь расстояние 3.
|
Расстояние Яро – Винклера | JaroWinklerDist («МАРТА», «МАРХТА») =
|
Наиболее часто встречающиеся символы k | MostFreqKeySimilarity ('реsеарch ',' sеекороль ', 2) = 2 |
Рекомендации
- ^ Лу, Цзяхэн; и другие. (2013). «Меры сходства строк и соединения с синонимами». Материалы международной конференции ACM SIGMOD 2013 по управлению данными: 373–384. Дои:10.1145/2463676.2465313. ISBN 9781450320375.
- ^ Наварро, Гонсало (2001). «Экскурсия по приблизительному сопоставлению строк». Опросы ACM Computing. 33 (1): 31–88. Дои:10.1145/375360.375365.
- ^ Коэн, Уильям; Равикумар, Прадип; Финберг, Стивен (2003-08-01). «Сравнение показателей расстояния между строками для задач сопоставления имен»: 73–78. Цитировать журнал требует
| журнал =
(помощь)
внешняя ссылка
- https://web.archive.org/web/20070304092115/http://www.dcs.shef.ac.uk/~sam/stringmetrics.html#qgram Достаточно полный обзор Индекс архива на Wayback Machine
- Библиотека с открытым исходным кодом Университета Карнеги-Меллона
- StringMetric проект а Scala библиотека строковых метрик и фонетических алгоритмов
- Природный проект а JavaScript библиотека обработки естественного языка, которая включает реализации популярных строковых показателей