Caverphone - Caverphone
Эта статья предоставляет недостаточный контекст для тех, кто не знаком с предметом.Октябрь 2009 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
В Caverphone это алгоритм фонетического сопоставления[1][2] изобрели, чтобы идентифицировать английские имена по их звукам, изначально были созданы для обработки пользовательского набора данных между 1893 и 1938 годами на юге Данидин, Новая Зеландия.[3] Начал с той же концепции, что и метафон, с тех пор он был разработан для поддержки и обработки общего английского языка.[3]
Этимология
Caverphone был создан Дэвидом Худом в Caversham Project на Университет Отаго в Новая Зеландия в 2002 году, пересмотрен в 2004 году. Он был создан для помощи в сопоставлении данных между списками избирателей конца 19-го и начала 20-го веков, где имя должно было быть только в «общепризнанной форме». Алгоритм был предназначен для применения к тем именам, которые нельзя было легко сопоставить в списках избирателей после того, как точные совпадения были удалены из пула потенциальных совпадений. Алгоритм оптимизирован для акцентов, присутствующих в исследуемой территории (южная часть г. Данидин, Новая Зеландия).
Процедура
Caverphone 1.0
Правила алгоритма применяются последовательно к любому конкретному имени в виде серии замен.
Алгоритм следующий:
- Преобразовать в строчная буква
- Удалить ничего не А-Я
- Если имя начинается с ...
- кашель, замените его на cou2f
- грубый, замените его на rou2f
- жесткий, замените его на tou2f
- довольно, замените его на enou2f
- gn, замените его на 2n
- Если имя заканчивается на
- мб, замените его на m2
- Заменять
- cq с 2кв.
- ci с си
- ce с se
- Сай с сы
- tch с 2 канала
- c с k
- q с k
- Икс с k
- v с ж
- dg с 2 г
- тио с sio
- тиа с sia
- d с т
- ph с fh
- б с п
- ш с s2
- z с s
- любой начальный гласный с А
- все остальные гласные с 3
- 3gh3 с 3х3
- gh с 22
- грамм с k
- группы письма s с S
- группы письма т с Т
- группы письма п с п
- группы письма k с K
- группы письма ж с F
- группы письма м с M
- группы письма п с N
- w3 с W3
- wy с Wy
- wh3 с Wh3
- Почему с Почему
- ш с 2
- любой начальный час с А
- все другие случаи появления час с 2
- r3 с R3
- ry с Ry
- р с 2
- l3 с L3
- лы с Ly
- л с 2
- j с у
- y3 с Y3
- у с 2
- удалить все
- 2
- 3
- положить шесть 1 в конце
- взять первые шесть символов как код
Caverphone 2.0
- Начни со слова
- Преобразовать в нижний регистр
- Удалите все, что не входит в стандартный алфавит (обычно а-я)[примечание 1]
- Удалить финал е
- Если имя начинается с
- кашель сделай это cou2f
- грубый сделай это rou2f
- жесткий сделай это tou2f
- довольно сделай это enou2f
- впадина сделай это Trou2f
- gn сделай это 2n
- Если имя заканчивается на
- мб сделай это m2
- Заменять
- cq с 2кв.
- ci с си
- ce с se
- Сай с сы
- tch с 2 канала
- c с k
- q с k
- Икс с k
- v с ж
- dg с 2 г
- тио с sio
- тиа с sia
- d с т
- ph с fh
- б с п
- ш с s2
- z с s
- начальный гласный[заметка 2] с А
- все остальные гласные с 3
- j с у
- начальный y3 с Y3
- начальный у с А
- у с 3
- 3gh3 с 3х3
- gh с 22
- грамм с k
- группы письма s с S
- группы письма т с Т
- группы письма п с п
- группы письма k с K
- группы письма ж с F
- группы письма м с M
- группы письма п с N
- w3 с W3
- wh3 с Wh3
- если имя заканчивается на ш заменить последний ш с 3
- ш с 2
- начальный час с А
- все другие случаи появления час с 2
- r3 с R3
- если имя заканчивается на р заменить последний р с 3
- р с 2
- l3 с L3
- если имя заканчивается на л заменить последний л с 3
- л с 2
- удалить все 2s
- если имя оканчивается на 3, замените последний 3 с А
- удалить все 3s
- положить десять 1с в конце
- взять первые десять персонажей как код
Примеры
Caverphone 1.0
Ли -> лили -> l33l33 -> L33L33 -> LL -> L111111L111111 -> L11111
Томпсон -> thompsonthompson -> th3mps3nth3mps3n -> th3mpS3nth3mpS3n -> Th3mpS3nTh3mpS3n -> Th3mPS3nTh3mPS3n -> Th3MPS3nTh3MPS3n -> Th3MPS3NTh3MMNTM11 -> Th3MPS3NTh3MMNTM3NTM -> Th3MPS3NTh3MMNTM3NTM
Caverphone 2.0
Lee -> leelee -> lele -> l3l3 -> L3L3 -> LALA -> LA1111111111LA1111111111 -> LA11111111
Томпсон -> thompsonthompson -> th3mps3nth3mps3n -> th3mpS3nth3mpS3n -> Th3mpS3nTh3mpS3n -> Th3mPS3nTh3mPS3n -> Th3MPS3nTh3MPS3n -> Th3MPS3NTh3MMPS3n11 -> Th3MPS3NTh3MMPS3N113 -> Th3MPS3NTh3MMNTM111
Смотрите также
Рекомендации
- ^ Милетта, Грег; Страуд, Адам (18 мая 2012 г.). Программирование профессионального датчика Android. Джон Вили и сыновья. С. 421–. ISBN 9781118240458. Получено 19 февраля 2013.
- ^ Фуа, Клифтон; Ли, Винсент; Смит, Кейт (2006). «Проблема личного имени и рекомендуемое решение для интеллектуального анализа данных». Энциклопедия хранилищ данных и майнинга. CiteSeerX 10.1.1.127.5111.
- ^ а б "Каверфон". Национальный институт стандартов и технологий. Получено 2018-08-20.
внешняя ссылка
- Caversham Project - Набор данных Caversham имен и акцентов в южной части Данидин, Новая Зеландия в 1893-1938 гг.
- Оригинальный (2002) алгоритм Caverphone
- Пересмотренный (2004 г.) алгоритм Caverphone
- Реализации:
- Исправленная реализация C #
- Реализация Java в Кодек Apache Commons проект
- Реализация PHP
- Реализация Python алгоритм каверфона (версия 2.0) - Проект AdvaS Advanced Search