Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

Keyword - analyse lexicale

Fil des billets - Fil des commentaires

14nov.

Travaux Pratique TALN - Morphologie et contexte syntaxique

Dans le TP précédent nous nous sommes limité à l'analyse des mots en-dehors de tout contexte. Il s'est alors agi de découper un texte en mots puis de compter ces derniers.

Dans ce second TP, nous allons nous intéresser à la morphologie des mots (leur forme textuelle). Nous explorerons notamment deux procédés de normalisation morphologique : la racinisation et la lemmatisation. Nous découvrirons ensuite que le contexte des mots, combiné à leur morphologie, peut nous apprendre bien des choses.

Lire la suite

24oct.

Travaux Pratique TALN - Le lexique

Malgré notre projet de création d'entreprise, je tenais à continuer à enseigner le TALN à l'Université. Outre l'intérêt pragmatique du chef d'entreprise qui souhaite ainsi repérer les éléments prometteurs à recruter, l'enseignement est une des meilleures manières de prendre du recul sur un domaine.

Cette année je compte mettre de côté UIMA pour me concentrer sur l'expérimentation. J'ai donc décidé de me tourner vers Python, mon langage de cœur, et les bibliothèques NLTK et scikit-learn.

Pour ce premier TP, je compte faire réfléchir les étudiants sur l'analyse lexicale : découpage d'un texte en mots, calculer une distribution sur un document, puis un corpus, filtrer les mots qui participent peu à l'expression du sens et visualiser un texte à partir de son lexique.

Lire la suite

12nov.

TP sur la catégorisation de textes

L'enseignement du TALN a, à mon avis, un réel potentiel d'attraction des étudiants. C'est à mon avis une matière qui peut être facilement attrayante (voir sexy) si l'on s'efforce de renouveler les exercices tout en employant des ressources récentes et des outils qui facilitent les tâches ingrates. Pour ma part, j'ai un souvenir assez mauvais de mes cours de TALN : CM et TD ennuyeux au contenu recyclé depuis l'avènement de l'IA des années 1980 ! Maintenant que c'est à mon tour de m'essayer à l'enseignement de cette matière qui est devenue, assez bizarrement d'ailleurs, ma spécialité, j'essaie de proposer le côté sexy du TALN que j'aurais bien aimé qu'on m'enseigne... est-ce que ça marche ? Il faudrait demander à mes étudiants :)

Un des sujets qui me paraît désormais primordial c'est celui de l'apprentissage ! Alors pour mes étudiants adorés, j'ai concocté un petit sujet aux oignons : Apache UIMA et Weka pour les outils ; Wikinews pour le corpus !

Lire la suite

09sept.

UIMA : Écriture d'un composant stemmeur (racinisateur)

La racinisation (ou lexèmisation) est l'opération consistant à retrouver le radical d'un mot à partir de sa forme déclinée. Ceci passe souvent par le remplacement des suffixes ou des préfixes.

L'algorithme le plus connu pour la racinisation est celui de M. Porter. Snowball est une implémentation de racinisateur pour plusieurs langues dont le français. Je vais me baser sur la librairie java libstemmer de Snowball, placée sous licence BSD, pour développer un composant UIMA de racinisation.

Lire la suite

29juin

Regroupement automatique de pages d'un wiki (1ère Partie)

Le Wiki est une invention totalement géniale qui permet de construire très rapidement une incroyable quantité de pages... toutefois cette quantité de pages dans son ensemble est souvent peu structurée ! Pour le wiki de Nantes-Wireless, j'ai décidé de mettre en place une technique de structuration automatique. Première tentative : clusterisation basée sur une distance lexicale.

Lire la suite