Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

Sciences & Recherche

Fil des billets - Fil des commentaires

13mar.

Corpus des discours de Nicolas Sarkozy (MÀJ)

Dans ce billet, j'avais distribué un corpus des discours de Nicolas Sarkozy. Depuis, le président a bien entendu prononcé un certain nombre de nouveaux discours. J'ai complété le corpus constitué à l'époque en conséquence.

Lire la suite

06mar.

Utilisation du CAS Editor

Il y a quelques temps j'avais écrit une documentation en interne dans mon laboratoire sur l'utilisation du ''CAS Editor''. À l'époque c'était assez éprouvant car ce dernier se présentait sous la forme d'une application RCP Eclipse.

Depuis la version 2.3.0, le CAS Editor a été intégré sous la forme d'un plugin Eclipse. L'occasion de remettre la doc au goût du jour et de la partager avec le reste du monde.

Lire la suite

04mar.

Release du collection reader pour Wikipedia v.0.4

Wikipedia est une incroyable source d’information, de données et plus généralement d’actes langagiers (utilisation du langage). C'est une ressource sans équivalent pour les chercheurs en traitement automatique des langues (TAL).

Le MediaWiki UIMA Loader est un composant UIMA, de type collection reader, permettant de tirer parti de Wikipédia pour la construction de corpus. La version 0.4 est la première release officiellement annoncée du composant.

Lire la suite

21fév.

UIMA & Wikipédia (5) : Gestion du projet avec Maven

La création de composants UIMA permettant d'accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l'encyclopédie libre. Je compte m'atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le cinquième billet, plus orienté technique de développement, qui discute de la gestion du projet avec Maven, permettant notamment de gérer automatiquement les dépendances à MWDumper et à Wikimodel.

Lire la suite

14fév.

UIMA & Wikipédia (4) : Analyse de la syntaxe MediaWiki

Wikipedia est une incroyable source d'information, de données et plus généralement d'actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d'observer de très nombreux exemples d'utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d'utilisation du langage sous forme de corpus.

La création de composants UIMA permettant d'accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l'encyclopédie libre. Je compte m'atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le quatrième billet qui discute de l'analyse syntaxique du contenu des pages wiki pour la suppression des balises Wiki.

Lire la suite

12fév.

UIMA & Wikipédia (3) : Filtrage des données à charger

Wikipedia est une incroyable source d'information, de données et plus généralement d'actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d'observer de très nombreux exemples d'utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d'utilisation du langage sous forme de corpus.

La création de composants UIMA permettant d'accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l'encyclopédie libre. Je compte m'atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le troisième billet qui discute du filtrage des données à charger : articles, révision, ...

Lire la suite

02fév.

UIMA & Wikipédia (2) : Chargement d'un dump Wikipedia

Wikipedia est une incroyable source d'information, de données et plus généralement d'actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d'observer de très nombreux exemples d'utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d'utilisation du langage sous forme de corpus.

La création de composants UIMA permettant d'accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l'encyclopédie libre. Je compte m'atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le second billet qui discute du chargement d'un dump XML de l'encyclopédie libre et la distribution du contenu sous forme de CAS.

Lire la suite

01fév.

UIMA & Wikipédia (1) : Proposition de Type System

Wikipedia est une incroyable source d'information, de données et plus généralement d'actes langagiers (utilisation du langage). Ce dernier point est très important pour nous autres chercheurs en traitement automatique des langues. En effet, nous avons besoin d'observer de très nombreux exemples d'utilisation du langage, que ce soit de manière automatique ou manuelle. Pour ce faire, nous compilons de vastes exemples d'utilisation du langage sous forme de corpus.

La création de composants UIMA permettant d'accéder et tirer parti de Wikipédia offrirait de nouvelles perspectives au traitement des langues en offrant un accès aisé à cette formidable ressource que représente l'encyclopédie libre. Je compte m'atteler à la création de tels composants et vais tâcher de publier plusieurs billets décrivant ma démarche en cours.

Voici le premier billet qui discute de la création d'un Type System approprié pour représenter les pages de Wikipedia.

Lire la suite

29janv.

Sortie d'Apache UIMA 2.3

L'annonce est parue hier sur les listes concernées, la nouvelle version du framework Apache UIMA (Unstructured Information Management Architecture) est sortie, estampillée 2.3 !

Lire la suite

18nov.

Insérer plusieurs copies locales de Wikipedia dans une base PostgreSQL

Dans ce billet, j'avais décrit une méthode permettant de créer un miroir local de Wikipédia dans une base PostgreSQL. Plus précisément, la démarche fonctionnait pour Wikinews en tant que super-utilisateur postgres, mais je ne pouvais pas aller plus en avant étant donné que mon serveur ne possédait pas assez d'espace pour accueillir un miroir Wikipédia.

Heureuse nouvelle, mon laboratoire a fait l'acquisition d'un énorme serveur (24 cœurs Xeon à 2,6GHz, 200Go de RAM, et 1,5To d'espace disque) sur lequel j'ai pu expérimenter la création d'un réel miroir Wikipédia qui plus est sur un serveur sur lequel je ne suis pas administrateur... impossible donc de passer super-administrateur de la base !

Lire la suite

12nov.

TP sur la catégorisation de textes

L'enseignement du TALN a, à mon avis, un réel potentiel d'attraction des étudiants. C'est à mon avis une matière qui peut être facilement attrayante (voir sexy) si l'on s'efforce de renouveler les exercices tout en employant des ressources récentes et des outils qui facilitent les tâches ingrates. Pour ma part, j'ai un souvenir assez mauvais de mes cours de TALN : CM et TD ennuyeux au contenu recyclé depuis l'avènement de l'IA des années 1980 ! Maintenant que c'est à mon tour de m'essayer à l'enseignement de cette matière qui est devenue, assez bizarrement d'ailleurs, ma spécialité, j'essaie de proposer le côté sexy du TALN que j'aurais bien aimé qu'on m'enseigne... est-ce que ça marche ? Il faudrait demander à mes étudiants :)

Un des sujets qui me paraît désormais primordial c'est celui de l'apprentissage ! Alors pour mes étudiants adorés, j'ai concocté un petit sujet aux oignons : Apache UIMA et Weka pour les outils ; Wikinews pour le corpus !

Lire la suite

09nov.

Construction de la communauté UIMA-Fr

Depuis le début de ma thèse, nous (un sous-ensemble dynamique de mon équipe de recherche) avons mis l'accent sur la nécessité de développer nos outils autour d'une plateforme unifiée afin que chacun tire parti du travail des autres. Nous avons alors proposé la solution du framework Apache UIMA, proposé des formations autour de ce dernier et entamé une migration des outils existant. L'initiative est aujourd'hui un succès: nous sommes monté en compétence sur UIMA et les nouveaux doctorants travaillent tous autour de cette plateforme !

Les bénéfices d'une plateforme unifiée au sein d'une équipe seraient à notre avis amplifiés si cette initiative était étendue à toute la communauté francophone ! Chacun pourrait alors profiter directement des développements et ressources développées par les autres équipes. C'est sur la base de cette hypothèse que nous prenons l'initiative d'initier la construction d'une communauté UIMA francophone.

Lire la suite

08nov.

Corpus des discours de Nicolas Sarkozy

Dans le cadre d'un de mes enseignements du TAL, j'ai proposé comme projet à mes étudiants de mettre au point une chaîne de traitement permettant de rapprocher des documents similaires sur le fond ou la forme, ces deux notions étant elles-même à définir (par les étudiants). Pour coller avec l'actualité, je leur ai proposé de travailler sur les discours prononcé par notre président de la République.

Lire la suite

30sept.

UIMA : Comment utiliser un type dont un attribut est un tableau de types ?

L'un des avantages indéniable de UIMA est de pouvoir définir son propre TypeSystem, ie l'ensemble des éléments que l'on va manipuler. De plus, ce TypeSystem est un arbre d'objets, ce qui permet de construire des structures de données enchevêtrées complexes.

Cet article illustre la construction et l'utilisation d'un type dont un attribut est un tableau d'un autre type.

Lire la suite

23sept.

Compilation de ressources autour d'Apache UIMA

Un court billet qui compile différents pointeurs web concernant Apache UIMA.

Lire la suite

23sept.

Nettoyage et améliorations du cpeGui

Depuis le temps que je peste après le manque d'ergonomie du cpeGui (org.apache.uima.tools.cpm.CpmFrame pour les intimes), j'ai voulu profiter d'un peu de temps durant une surveillance de TP pour jeter un coup d'œil au code et essayer d'obtenir quelque chose de plus intuitif. J'ai pu profiter des premiers pointeurs posés par mon collègue Matthieu pour m'introduire dans les méandre de la bête !

Au final j'ai à peu près tout cassé pour obtenir quelque chose d'assez proche de l'original en terme d'ergonomie... mais qui ne fonctionne plus !

Lire la suite

19sept.

Tutoriel et Environnement UIMA des RMLL

Lors de l'édition 2009 des RMLL à Nantes, notre équipe de recherche du LINA a organisé un colloque parallèle sur le cadriciel Apache UIMA.

Lire la suite

09sept.

UIMA : Écriture d'un composant stemmeur (racinisateur)

La racinisation (ou lexèmisation) est l'opération consistant à retrouver le radical d'un mot à partir de sa forme déclinée. Ceci passe souvent par le remplacement des suffixes ou des préfixes.

L'algorithme le plus connu pour la racinisation est celui de M. Porter. Snowball est une implémentation de racinisateur pour plusieurs langues dont le français. Je vais me baser sur la librairie java libstemmer de Snowball, placée sous licence BSD, pour développer un composant UIMA de racinisation.

Lire la suite

25juil.

Revue du développement d'Apache UIMA (Juin 2009)

Revue synthétique des développements liés à Apache UIMA pour la période de Juin 2009. Avec presque un mois de retard :/

Lire la suite

25mai

Revue du développement d'Apache UIMA (Mai 2009)

Au sein de mon équipe de recherche nous nous intéressons de très près à l'avancement du développement d'Apache UIMA. Étant donné que je fais de la veille sur la liste de développement de UIMA et que j'en fais une synthèse une fois par mois pour ceux de mon équipe qui ne suivent pas trop, je me suis dit que ça pourrait intéresser d'autres... alors je le poste ici.

Lire la suite

- page 2 de 3 -