Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

19sept.

Tutoriel et Environnement UIMA des RMLL

Lors de l'édition 2009 des RMLL à Nantes, notre équipe de recherche du LINA a organisé un colloque parallèle sur le cadriciel Apache UIMA.

Lire la suite

09sept.

UIMA : Écriture d'un composant stemmeur (racinisateur)

La racinisation (ou lexèmisation) est l'opération consistant à retrouver le radical d'un mot à partir de sa forme déclinée. Ceci passe souvent par le remplacement des suffixes ou des préfixes.

L'algorithme le plus connu pour la racinisation est celui de M. Porter. Snowball est une implémentation de racinisateur pour plusieurs langues dont le français. Je vais me baser sur la librairie java libstemmer de Snowball, placée sous licence BSD, pour développer un composant UIMA de racinisation.

Lire la suite

25juil.

Revue du développement d'Apache UIMA (Juin 2009)

Revue synthétique des développements liés à Apache UIMA pour la période de Juin 2009. Avec presque un mois de retard :/

Lire la suite

25mai

Revue du développement d'Apache UIMA (Mai 2009)

Au sein de mon équipe de recherche nous nous intéressons de très près à l'avancement du développement d'Apache UIMA. Étant donné que je fais de la veille sur la liste de développement de UIMA et que j'en fais une synthèse une fois par mois pour ceux de mon équipe qui ne suivent pas trop, je me suis dit que ça pourrait intéresser d'autres... alors je le poste ici.

Lire la suite

07mai

Réalisation de paquets Ubuntu/Debian pour Apache UIMA

Apache UIMA est l'implémentation Apache de la (presque) norme d'architecture pour la gestion des données non structurées. J'ai réalisé des paquets pour Ubuntu/Debian de cette implémentation afin de me faciliter la vie, mais les paquets ne respectent certainement pas la charte de qualité... besoin d'un coup de main :)

Lire la suite

07mai

UIMA : Spécification du type d'annotation par paramètres

UIMA (Unstructured Information Management Architecture) est une architecture pour la gestion des données non structurées en passe de devenir un standard. J'utilise l'implémentation proposée par Apache dans le cadre de ma thèse sur la détection automatique de reprise pour tous mes traitements sur corpus.

Je publie dans cet article une petite astuce bien pratique qui permet de manipuler des annotations d'un type qui n'est pas connu a priori mais passé en paramètre d'un composant.

Lire la suite

page 2 de 2 -