Рейтинговый подход - Википедия - Match rating approach
Эта статья предоставляет недостаточный контекст для тех, кто не знаком с предметом.Октябрь 2009 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
В рейтинговый подход (MRA) - это фонетический алгоритм разработан Western Airlines в 1977 г. для индексации и сравнения гомофонный имена.[1]
Сам алгоритм имеет простой набор правил кодирования, но более длинный набор правил сравнения. Основным механизмом является сравнение сходства, которое вычисляет количество несовпадающих символов путем сравнения строк слева направо, а затем справа налево, и удаление одинаковых символов. Это значение вычитается из 6 и затем сравнивается с минимальным порогом. Минимальный порог определен в таблице A и зависит от длины строк.
Закодированное имя известно (возможно, неправильно) как персональный числовой идентификатор (PNI). Закодированное имя не может содержать более 6 букв, содержащих только буквы.
Подход с рейтингом соответствия хорошо работает с именами, содержащими букву "y", в отличие от оригинального варианта NYSIIS алгоритм; например, удачно сочетаются фамилии «Смит» и «Смит». Однако MRA плохо работает с закодированными именами, длина которых различается более чем на 2.
Правила кодирования
- Удалите все гласные, если только гласная не начинается в слове.
- Удалите второй согласный из любых присутствующих двойных согласных
- Уменьшите кодекс до 6 букв, соединив только первые 3 и последние 3 буквы
Правила сравнения
В этом разделе слова «строка (и)» и «имя (а)» означают «закодированные строки» и «закодированные имена».
- Если разница в длине между закодированными строками составляет 3 или больше, то сравнение сходства не выполняется.
- Получите минимальное значение рейтинга, вычислив сумму длин закодированных строк и используя таблицу A
- Обработайте закодированные строки слева направо и удалите все идентичные символы, найденные в обеих строках соответственно.
- Обработайте несовпадающие символы справа налево и удалите все идентичные символы, найденные в обоих именах соответственно.
- Вычтите количество несовпадающих символов из 6 в более длинной строке. Это рейтинг подобия.
- Если рейтинг подобия равен минимальному рейтингу или превышает его, то совпадение считается хорошим.
Минимальный порог
В следующей таблице показано соответствие между минимальным рейтингом и длиной строки.
Сумма длин | Минимальный рейтинг |
---|---|
≤ 4 | 5 |
4 <сумма ≤ 7 | 4 |
7 <сумма ≤ 11 | 3 |
= 12 | 2 |
Примеры рейтингового подхода
В таблице ниже показаны результаты алгоритма подхода к оценке соответствия для некоторых распространенных гомофонных имен.
Имя | Кодекс MRA | Минимальный рейтинг | Рейтинг сравнения схожести |
---|---|---|---|
Бирн | BYRN | 4 | 5 |
Boern | BRN | ||
Смит | SMTH | 3 | 5 |
Смит | SMYTH | ||
Екатерина | CTHRN | 3 | 4 |
Кэтрин | КТРИН |
Смотрите также
Рекомендации
- ^ Мур, Г. Б.; Kuhns, J L .; Treffzs, J L .; Монтгомери, К. А. (1 февраля 1977 г.). Доступ к индивидуальным записям из файлов личных данных с использованием неуникальных идентификаторов. Национальный институт стандартов и технологий США. п. 17. НИСТ СП - 500-2. Сложить резюме.