L'intégralité du cours et des ressources nécessaires sont disponibles ici, ce qui inclut notamment le support de cours. Le travail intègre les éléments vus précédemment et les étudiants exploitent encore le corpus des discours de Nicolas Sarkozy.

J'ai revu les objectifs à la baisse. J'ai essayé de recentrer un peu le contenu sur la partie théorique étant donné que celle-ci est beaucoup plus présente dans cette partie (propriété de Markov et probabilités conditionnelles). Je ne délaisse pour autant pas les exercices de mise en pratique qui me semblent fondamentaux pour un module de "découverte".

À l'issue de cette dernière séance j'espère que les étudiants auront compris :

  • le principe de la propriété de Markov ;
  • comment celle-ci est mise en œuvre au travers des n-grammes ;
  • l'importance du contexte dans la compréhension du texte ;
  • ce qu'on entend derrière un "modèle de langage".

Et j'espère encore une fois qu'ils auront pris du plaisir dans mon cours... Normalement ils devraient être en mesure de créer de nouveaux nuages de mots en utilisant cette fois des filtrages un peu plus élaborés. Voici ceux que j'ai généré à partir de l'énoncé en utilisant l'outil WordItOut et mon script d'extraction :

Nuage des 100 trigrammes mots les plus fréquents des discours de Nicolas Sarkozy : Nuage des 100 trigrammes mots les plus fréquents

Nuage des 100 trigrammes mots les plus fréquents des discours de Nicolas Sarkozy après suppression des mots ouils : Nuage des 100 trigrammes mots les plus fréquents, mots outils exclus

Nuage des 100 trigrammes mots les plus fréquents des discours de Nicolas Sarkozy, restriction aux noms et adjectifs uniquement : Nuage des 100 trigrammes mots (noms et adjectifs) les plus fréquents

Nuage des 100 trigrammes mots les plus fréquents des discours de Nicolas Sarkozy, restriction aux verbes et adverbes uniquement : Nuage des 100 trigrammes mots (verbes et adverbes) les plus fréquents