Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

Keyword - normalisation

Fil des billets - Fil des commentaires

24sept.

Marre des .doc en pièce-jointe ? Pointez le RGI !

Si comme moi vous en avez marre de recevoir des .doc en pièce-jointe de vos courriels, n'hésitez plus à répondre à l'expéditeur en lui indiquant qu'il n'est pas en accord avec le ''Référentiel Général d'Interopérabilité'' (RGI) !

Lire la suite

09sept.

UIMA : Écriture d'un composant stemmeur (racinisateur)

La racinisation (ou lexèmisation) est l'opération consistant à retrouver le radical d'un mot à partir de sa forme déclinée. Ceci passe souvent par le remplacement des suffixes ou des préfixes.

L'algorithme le plus connu pour la racinisation est celui de M. Porter. Snowball est une implémentation de racinisateur pour plusieurs langues dont le français. Je vais me baser sur la librairie java libstemmer de Snowball, placée sous licence BSD, pour développer un composant UIMA de racinisation.

Lire la suite

21fév.

L'algorithme de Porter

L'algorithme de Porter est un algorithme de normalisation des mots. Il permet de supprimer les affixes des mots pour obtenir une forme canonique du mot. Cet algorithme est utilisé pour la langue anglaise, mais son efficacité est limitée pour la langue française où les flexions sont plus importants et plus diverses. Il reste toutefois un algorithme fondamental couramment enseigné en TALN.

Lire la suite