Le TP se découpe en deux parties :

  • Une prise en main de Weka
  • Une utilisation de l'apprentissage pour le TAL : l'approche sac de mots pour la catégorisation de textes

Voici l'énoncé, et comme je suis vraiment trop sympa, une proposition de correction avec corpus, fichiers intermédiaires (arff), composants UIMA et même un exemple de rapport.

Voilà, comme d'habitude c'est distribué librement (CC-by) dans l'espoir que ça puisse être utile ! Si vous êtes étudiant ou enseignant, n'hésitez pas à me dire ce que vous en pensez, me proposer des améliorations... ou tout simplement à l'utiliser de votre côté !