L'algorithme Soundex a été breveté en 1918 et 1922 par Robert RUSSELL et Marguerite ODELL. Son utilisation commerciale décolle dans les années 1930 avec l'utilisation de données du recensement par la sécurité sociale américaine.
Il s'agit d'une méthode d'indexation phonétique basée initialement sur 8 sons élémentaires. Il existe de nombreuses variantes, dont le Soundex Simplifié et l'American Soundex ou Miracode. Tous les algorithmes de Soundex produisent pour chaque mot un code abrégé en éliminant les lettres muettes (H par exemple), les lettres en double et en regroupant les lettres par son (dentale, etc …).
Par exemple, pour le Soundex simplifié qu'utilise l'Annuaire, en version anglaise la règle est la suivante :
A) Conserver la lettre initiale,
B) Convertissez chaque lettre (incluant le premier) selon la table
suivante. Ignorez la ponctuation comme des apostrophes, des espaces et
des traits d'union :
*0 = AEIOUWYH,
*1 = BPFV,
*2 = CSKGJQXZ,
*3 = DT,
*4 = L,
*5 = MN,
*6 = R,
C) Changez tous les chiffres doubles consécutifs à un exemple simple. Changez par exemple 22 à 2,
D) Remplacez le premier chiffre par la lettre de l'étape A,
E) Supprimez tous les zéros,
F) Ajuster à quatre caractères en tronquant, ou en complétant à droite avec des zéros.
Exemples
WILLIAMS - > W - > 00440052 - > 04052 - > W4052 - > W452 - > W452
BARAGWANATH - > B - > 10602005030 - > 1060205030 - > B060205030 - > B6253 - > B625
DONNELL - > D - > 3055044 - > 30504 - > D0504 - > D54 - > D540
LLOYD - > L - > 44003 - > 403 - > L03 - > L3 - > L300
WOOLCOCK - > W - > 00042022 - > 04202 - > W4202 - > W422 - > W422
Afin de permettre une recherche plein-texte, une adaptation a été faite en convertissant la première lettre et en ne tronquant pas le code.
Voir aussi