Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

Keyword - enseignement

Fil des billets - Fil des commentaires

21nov.

Travaux Pratique TALN - Contexte syntaxique

Les séances précédentes ont été consacrées à l'analyse lexicale et morphologique. Il est temps de se détacher de la dimension lexicale des textes pour tendre vers la dimension syntaxique.

Lire la suite

14nov.

Travaux Pratique TALN - Morphologie et contexte syntaxique

Dans le TP précédent nous nous sommes limité à l'analyse des mots en-dehors de tout contexte. Il s'est alors agi de découper un texte en mots puis de compter ces derniers.

Dans ce second TP, nous allons nous intéresser à la morphologie des mots (leur forme textuelle). Nous explorerons notamment deux procédés de normalisation morphologique : la racinisation et la lemmatisation. Nous découvrirons ensuite que le contexte des mots, combiné à leur morphologie, peut nous apprendre bien des choses.

Lire la suite

24oct.

Travaux Pratique TALN - Le lexique

Malgré notre projet de création d'entreprise, je tenais à continuer à enseigner le TALN à l'Université. Outre l'intérêt pragmatique du chef d'entreprise qui souhaite ainsi repérer les éléments prometteurs à recruter, l'enseignement est une des meilleures manières de prendre du recul sur un domaine.

Cette année je compte mettre de côté UIMA pour me concentrer sur l'expérimentation. J'ai donc décidé de me tourner vers Python, mon langage de cœur, et les bibliothèques NLTK et scikit-learn.

Pour ce premier TP, je compte faire réfléchir les étudiants sur l'analyse lexicale : découpage d'un texte en mots, calculer une distribution sur un document, puis un corpus, filtrer les mots qui participent peu à l'expression du sens et visualiser un texte à partir de son lexique.

Lire la suite

12janv.

Cours de TALN (3) : n-grammes

Voilà le troisième et dernier opus du cours dont je parlais ici. J'avais présenté le premier opus ici et le second ici.

Lire la suite

09janv.

Cours de TALN (2) : morphologie et étiquetage des rôles grammaticaux

Voilà le second opus du cours dont je parlais ici. J'avais présenté le premier opus ici.

Lire la suite

07janv.

Nettoyage des pages Web avec Web-Harvest

Dans un projet en cours, j'ai besoin d'un outil de nettoyage des pages Web. Par nettoyage des pages Web, j'entends l'isolement et l'extraction des éléments de la page qui constituent son contenu et le filtrage du reste (menus, publicité, scripts...). J'ai notamment proposé avec mon encadrant un sujet de stage à destination des M1 ALMA de l'Université de Nantes. (Le sujet a été écrit en quelques minutes et je me rends compte de plusieurs fautes, veuillez m'en excuser).

Lors de l'écriture de ce sujet de stage, j'ai découvert Web-Harvest, un outil d'extraction de contenu depuis le Web.

Lire la suite

04janv.

Petit script pour découvrir les expressions rationnelles

Comme j'en discutais dans mon billet précédent, mon premier cours cette année a principalement porté sur les expressions rationnelles. J'ai tiré deux bilans de ce cours :

  • il faut que les étudiants manipulent au maximum
  • il faut qu'ils comprennent mieux ce qui se passe dans les moteurs d'expressions rationnelles pour corriger leurs erreurs

J'ai donc écrit un script Python pour les accompagner dans leur découverte des expressions rationnelles.

Lire la suite

03janv.

Cours de TALN (1) : expressions rationnelles

Voilà, suite à mon précédent billet, je me suis décidé à me lancer dans l'écriture du cours que je dois donner demain.

Lire la suite

03janv.

Un cours de TALN parfait ?

Depuis le début de mon doctorat j'ai eu la chance de pouvoir dispenser plusieurs enseignements autour du TALN. Malheureusement je n'ai jamais été responsable du module et je n'ai jamais tellement eu la liberté d'enseigner comme je le souhaitais. Personnellement je n'ai pas aimé la façon dont le TALN m'a été enseigné et par conséquent je n'aime pas l'enseigner de la même façon qu'il me l'a été.

Quelle aurait été le cours de TALN que j'aurais aimé avoir ? Certainement quelque chose mieux ancré dans le TALN d'aujourd'hui et orienté vers les méthodes et les applications !

Lire la suite

09mar.

Utiliser Bazaar au travers de Web DAV

Dans le cadre de mon cours sur les outils pour le travail collaboratif, je fais travailler tous mes étudiants ensembles sur un même projet. Ces derniers sont alors invités (fortement) à utiliser plusieurs outils dans le cadre de leur collaboration : messagerie instantanée (IRC), wiki et gestionnaire de tickets (Trac) et un gestionnaire de version décentralisé (bazaar).

Avant je leur faisais utiliser subversion qui a un module Apache dédié et qui est pris en charge par défaut dans Trac. La nouveauté de cette année c'est l'utilisation de Bazaar...

Lire la suite

08nov.

Corpus des discours de Nicolas Sarkozy

Dans le cadre d'un de mes enseignements du TAL, j'ai proposé comme projet à mes étudiants de mettre au point une chaîne de traitement permettant de rapprocher des documents similaires sur le fond ou la forme, ces deux notions étant elles-même à définir (par les étudiants). Pour coller avec l'actualité, je leur ai proposé de travailler sur les discours prononcé par notre président de la République.

Lire la suite