Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

03janv. 2011

Un cours de TALN parfait ?

Depuis le début de mon doctorat j'ai eu la chance de pouvoir dispenser plusieurs enseignements autour du TALN. Malheureusement je n'ai jamais été responsable du module et je n'ai jamais tellement eu la liberté d'enseigner comme je le souhaitais. Personnellement je n'ai pas aimé la façon dont le TALN m'a été enseigné et par conséquent je n'aime pas l'enseigner de la même façon qu'il me l'a été.

Quelle aurait été le cours de TALN que j'aurais aimé avoir ? Certainement quelque chose mieux ancré dans le TALN d'aujourd'hui et orienté vers les méthodes et les applications !

Lire la suite

02janv. 2011

Joyeux noël : Cheap Magic Inside en cadeau !

Pour ceux qui aiment Beirut, le film Cheap Magic Inside réalisé en 2007 par la Blogothèque au format "concerts à emporter" est désormais téléchargeable gratuitement et légalement à partir de cette page dédiée.

Lire la suite

27déc. 2010

Crash de mon serveur

Mon serveur qui hébergeait entre autre ce blog n'a pas supporté l'arrivée de l'hiver et nous a quitté le week-end du 12 décembre. Ce blog et quelques autres ont alors disparu d'internet depuis lors. Les voici de nouveau en ligne et fonctionnels depuis aujourd'hui.

Malheureusement je n'ai pas réussi à tout récupérer (système de sauvegarde défaillant), et il manque quelques billets et surtout plusieurs commentaires. N'hésitez pas à signaler tout dysfonctionnement que vous rencontreriez.

En attendant une année 2011 où je finirai peut-être enfin cette satanée thèse, je vous souhaite de joyeuses fêtes :)

20sept. 2010

UIMA insights : le doigt dans le workflow

Les opérations logicielles en traitement automatique des langues sont souvent très importantes, très coûteuse, mais également parallélisables. C'est l'un des avantages indéniables d'UIMA, par le choix d'une architecture par composants, de permettre de paralléliser les traitements assez simplement.

La programmation d'un composant UIMA doit donc se faire avec en tête l'idée qu'il pourrait être déployé pour un traitement parallélisé. Lorsque comme moi on n'a pas cette habitude, on se heurte rapidement à des petits obstacles techniques. Dans le cas présent, il s'agissait de développer un composant qui exportait les résultats d'un calcul dans un fichier CSV.

Lire la suite

08sept. 2010

Un rapide tokeniseur en mots pour le français

Parmi les addons distribués avec UIMA, le composant WhitespaceTokenizer permet de découper les textes en "mots" en s'appuyant sur les espaces et autres blancs. Malheureusement si cette approche est acceptable pour l'anglais, elle est beaucoup plus problématique pour le français. Le découpage en mots n'est pas une tâche forcément évidente et qui nécessiterait un réel travail. Partagé entre la nécessité d'une tokenisation correcte et le peu de temps qui me reste pour terminer ma thèse, voici une proposition suffisamment acceptable pour mes besoins.

Lire la suite

26août 2010

Calculer le recouvrement de deux textes avec NLTK

Mon travail de thèse, sobrement intitulée Détection de dérivations de texte, consiste à évaluer la probabilité qu'un texte dérive d'un autre. Une des applications, que je déteste mais qui a l'avantage de parler à la plupart des gens, est la détection de plagiat.

Une approche, naïve mais simple à mettre en œuvre, consiste à calculer le nombre de mots que deux textes partagent. Voici une proposition d'implémentation d'une telle technique tirant partie de la bibliothèque NLTK.

Lire la suite

17juil. 2010

Du bon usage des ressources dans UIMA

Les ressources sont un aspect de UIMA que j'ai peu abordé et que j'ai très peu utilisé, sauf récemment lorsque l'on a entraîné un modèle français HMM pour le HMM Tagger (il faut que j'écrive un billet à ce sujet d'ailleurs). Pourtant les ressources, et leur rôle, sont assez mal compris au sein d'UIMA.

Lire la suite

13juil. 2010

Installer Subclipse pour Eclipse Helios

Pour Debian Squeeze, Eclipse Helios n'est pas encore packagée. Je métais contenté de Galileo jusqu'à maintenant mais Subclipse a, pour une raison que je n'arrive toujours pas à m'expliquer, cessé de fonctionner. Après multiples vaines tentatives de retrouver un environnement de travail fonctionnel, j'ai aboutit à Eclipse Helios + Subclipse.

Lire la suite

29juin 2010

"Le réseau n'est pas accessible" incongrue dans Eclipse (ou n'importe quelle application Java)

Depuis ma dernière mise-à-jour dans Debian Squeeze, je me suis aperçu qu'Eclipse (ou bien n'importe quelle application Java) n'était plus en mesure de se connecter au réseau. L'application retourne inéluctablement le message "Le réseau n'est pas accessible", quand bien même toutes les autres applications se connectent sans problème.

Apparemment ce comportement est dû à l'utilisation exclusive d'IPv6 dans Java (JVM Sun ou OpenJDK indifféremment)... ce qui sur les réseaux toujours en IPv4 ne mène à rien, et correspond effectivement à un réseau inaccessible.

La solution consiste à passer l'option -Djava.net.preferIPv4Stack=true à la JVM à son lancement. Pour Eclipse, il suffit d'ajouter cette ligne au fichier eclipse.ini (/etc/eclipse.ini) pour Debian.

La discussion concernant ce bug chez Debian : http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=560142

22juin 2010

Debian : échec du lancement des applications graphiques en root

Je viens tout juste de quitter Ubuntu qui commençait sérieusement à m'agacer avec ses versions pas vraiment finies et ses mises-à-jour de version qui plantent tout. Alors je suis revenu sous la distribution reine : Debian.

Le premier petit accroc que je viens de rencontrer concerne le lancement de l'outil update-manager. Lorsque que je le lance à partir de ma zone de notification, il m'invite à taper mon mot de passe afin de passer root et de s'exécuter, puis se crache lamentablement avec un Failed to run update-manager as user root, suivi d'un petit Failed to communicate with gksu-run-helper.

Le problème vient de l'utilisation de su pour l'authentification, il suffit de le remplacer par sudo. Pour ce faire :

  1. Lancez l'outil de configuration gksu-properties (à partir d'une console)
  2. Placez l'entrée Authentication mode sur sudo
  3. Fermez, c'est corrigé :)

Je ne sais pas si c'est un problème dû à quelques fichiers de configurations restant d'Ubuntu dans mon home, mais c'est un peu gênant. Il faudrait peut-être le remonter aux développeurs Debian.

02avr. 2010

51e billet... un peu de fun : mettre en place une fausse webcam sous Ubuntu

Pour mon 51e billet sur ce blog, je me suis dit que j'allais faire quelque chose d'un peu plus détendu que d'habitude. Voici un petit tutoriel pour installer une fausse webcam sous Ubuntu Karmic.

À quoi ça sert une fausse webcam ? Potentiellement à plusieurs choses :

  • Faire passer le flux de votre vraie webcam qui n'est pas reconnue par Flash dans une fausse reconnue elle par Flash (cherchez pas ^^)
  • Balancer votre dernier film de vacance en streaming à votre mamie par la webcam, sans mettre en place de choses compliquées
  • Faire croire à votre rencard internet que vous êtes Bard Pitt (ou Angelina Jolie... c'est selon le rencard)

Lire la suite

01avr. 2010

Parcours des annotations couvertes par une autre annotation

Lorsque l'on travaille avec Apache UIMA et que l'on ajoute un nombre important d'annotations, il arrive un moment où l'on va vouloir filtrer certaines de ces annotations en fonction d'autres. Ainsi, assez couramment on éprouve le besoin de devoir récupérer des annotations qui couvrent la même zone de texte qu'une autre. Par exemple :

  • récupérer les mots contenus dans une phrases ;
  • récupérer les paragraphes dans un document ;

Il y a au moins deux approches dans Apache UIMA qui permettent de répondre à ce besoin : le subiterator et le FSMatchConstraint.

Lire la suite

16mar. 2010

Tests unitaires pour UIMA avec UUTUC

La qualité du code développé dans le cadre des activités de recherche scientifique n'est pas toujours aussi bon qu'on pourrait l'espérer. Outre la nécessité (évidente à mes yeux) d'ouvrir le codes des activités scientifiques financées par l'État et les collectivités territoriales, il est également nécessaire de suivre de bonnes pratiques de programmation. L'écriture de tests unitaires et leur exécution régulière est une de ces bonnes pratiques.

Je présente dans ce billet un cas d'utilisation de la bibliothèque UUTUC, présentée lors du Workshop sur l'Ingénierie Logiciel, les Tests et l'Assurance Qualité pour le Traitement des Langues Naturelles (SETQA-NLP 2009), pour tester l'implémentation d'une bibliothèque développée et utilisée dans le cadre de ma thèse (tddts-uima-shingling).

Lire la suite

13mar. 2010

Corpus des discours de Nicolas Sarkozy (MÀJ)

Dans ce billet, j'avais distribué un corpus des discours de Nicolas Sarkozy. Depuis, le président a bien entendu prononcé un certain nombre de nouveaux discours. J'ai complété le corpus constitué à l'époque en conséquence.

Lire la suite

09mar. 2010

Utiliser Bazaar au travers de Web DAV

Dans le cadre de mon cours sur les outils pour le travail collaboratif, je fais travailler tous mes étudiants ensembles sur un même projet. Ces derniers sont alors invités (fortement) à utiliser plusieurs outils dans le cadre de leur collaboration : messagerie instantanée (IRC), wiki et gestionnaire de tickets (Trac) et un gestionnaire de version décentralisé (bazaar).

Avant je leur faisais utiliser subversion qui a un module Apache dédié et qui est pris en charge par défaut dans Trac. La nouveauté de cette année c'est l'utilisation de Bazaar...

Lire la suite

06mar. 2010

Utilisation du CAS Editor

Il y a quelques temps j'avais écrit une documentation en interne dans mon laboratoire sur l'utilisation du ''CAS Editor''. À l'époque c'était assez éprouvant car ce dernier se présentait sous la forme d'une application RCP Eclipse.

Depuis la version 2.3.0, le CAS Editor a été intégré sous la forme d'un plugin Eclipse. L'occasion de remettre la doc au goût du jour et de la partager avec le reste du monde.

Lire la suite

04mar. 2010

Release du collection reader pour Wikipedia v.0.4

Wikipedia est une incroyable source d’information, de données et plus généralement d’actes langagiers (utilisation du langage). C'est une ressource sans équivalent pour les chercheurs en traitement automatique des langues (TAL).

Le MediaWiki UIMA Loader est un composant UIMA, de type collection reader, permettant de tirer parti de Wikipédia pour la construction de corpus. La version 0.4 est la première release officiellement annoncée du composant.

Lire la suite

21fév. 2010

UIMA & Wikipédia (5) : Gestion du projet avec Maven

La création de composants UIMA permettant d'accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l'encyclopédie libre. Je compte m'atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le cinquième billet, plus orienté technique de développement, qui discute de la gestion du projet avec Maven, permettant notamment de gérer automatiquement les dépendances à MWDumper et à Wikimodel.

Lire la suite

19fév. 2010

Un peu de sécurité : renforcer SSH

Après les annonces récentes concernant la sécurité des systèmes informatiques (ici ou ), je me suis dit que ce serait pas mal de m'intéresser un peu à la sécurité de mon serveur.

Je vais commencer par SSH étant donné qu'il s'agit du moyen le plus classique pour entrer sur le serveur.

Lire la suite

14fév. 2010

UIMA & Wikipédia (4) : Analyse de la syntaxe MediaWiki

Wikipedia est une incroyable source d'information, de données et plus généralement d'actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d'observer de très nombreux exemples d'utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d'utilisation du langage sous forme de corpus.

La création de composants UIMA permettant d'accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l'encyclopédie libre. Je compte m'atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le quatrième billet qui discute de l'analyse syntaxique du contenu des pages wiki pour la suppression des balises Wiki.

Lire la suite

- page 3 de 7 -