Si comme moi vous en avez marre de recevoir des .doc en pièce-jointe de vos courriels, n'hésitez plus à répondre à l'expéditeur en lui indiquant qu'il n'est pas en accord avec le ''Référentiel Général d'Interopérabilité'' (RGI) !
Keyword - normalisation
24sept.
Marre des .doc en pièce-jointe ? Pointez le RGI !
17:41 - Par Fabien Poulard - Citoyen & Politique
09sept.
UIMA : Écriture d'un composant stemmeur (racinisateur)
10:23 - Par Fabien Poulard - Sciences & Recherche
La racinisation (ou lexèmisation) est l'opération consistant à retrouver le radical d'un mot à partir de sa forme déclinée. Ceci passe souvent par le remplacement des suffixes ou des préfixes.
L'algorithme le plus connu pour la racinisation est celui de M. Porter. Snowball est une implémentation de racinisateur pour plusieurs langues dont le français. Je vais me baser sur la librairie java libstemmer de Snowball, placée sous licence BSD, pour développer un composant UIMA de racinisation.
21fév.
L'algorithme de Porter
13:54 - Par Fabien Poulard - Sciences & Recherche - un commentaire
L'algorithme de Porter est un algorithme de normalisation des mots. Il permet de supprimer les affixes des mots pour obtenir une forme canonique du mot. Cet algorithme est utilisé pour la langue anglaise, mais son efficacité est limitée pour la langue française où les flexions sont plus importants et plus diverses. Il reste toutefois un algorithme fondamental couramment enseigné en TALN.