Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

17mar.

Visualiser un espace à plusieurs dimensions en 3D

L'analyse en composantes principales (ACP) permet de calculer les hyperplans d'un espace vectoriel tel qu'une projection sur ces plans conserve un maximum d'entropie. Cette approche permet entre autres choses de projeter des espaces ayant un très grand nombre de dimensions dans des espaces de dimensions réduites tout en limitant la perte d'information.

L'utilisation combinée de scikit-learn et de matplotlib permet de produire très rapidement des réductions de dimension et de les visualiser. J'utilise ces bibliothèques pour visualiser dans un espace à 2 ou 3 dimensions des espaces vectoriels correspondant à des représentations de documents à l'aide de traits particuliers.

Lire la suite

03janv.

Un cours de TALN parfait ?

Depuis le début de mon doctorat j'ai eu la chance de pouvoir dispenser plusieurs enseignements autour du TALN. Malheureusement je n'ai jamais été responsable du module et je n'ai jamais tellement eu la liberté d'enseigner comme je le souhaitais. Personnellement je n'ai pas aimé la façon dont le TALN m'a été enseigné et par conséquent je n'aime pas l'enseigner de la même façon qu'il me l'a été.

Quelle aurait été le cours de TALN que j'aurais aimé avoir ? Certainement quelque chose mieux ancré dans le TALN d'aujourd'hui et orienté vers les méthodes et les applications !

Lire la suite

26août

Calculer le recouvrement de deux textes avec NLTK

Mon travail de thèse, sobrement intitulée Détection de dérivations de texte, consiste à évaluer la probabilité qu'un texte dérive d'un autre. Une des applications, que je déteste mais qui a l'avantage de parler à la plupart des gens, est la détection de plagiat.

Une approche, naïve mais simple à mettre en œuvre, consiste à calculer le nombre de mots que deux textes partagent. Voici une proposition d'implémentation d'une telle technique tirant partie de la bibliothèque NLTK.

Lire la suite

29juin

Regroupement automatique de pages d'un wiki (1ère Partie)

Le Wiki est une invention totalement géniale qui permet de construire très rapidement une incroyable quantité de pages... toutefois cette quantité de pages dans son ensemble est souvent peu structurée ! Pour le wiki de Nantes-Wireless, j'ai décidé de mettre en place une technique de structuration automatique. Première tentative : clusterisation basée sur une distance lexicale.

Lire la suite

05mar.

Tokenisation en mots avec NLTK

Le toolkit NLTK intègre plusieurs algorithmes permettant de découper un texte en mots. Ce billet présente plusieurs d'entre eux.

Lire la suite

10fév.

NLTK et la loi de Zipf (Traduction et Reprise de ACM Crossroads)

Ce billet reprend partiellement l'article du journal ACM Crossroads sur NLTK. Il illustre le potentiel du toolkit NLTK (Natural Language Toolkit) pour Python en montrant l'application de la loi de Zipf sur le corpus Gutenberg.

Lire la suite