Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

05juin 2011

Copier une annotation d'une vue à une autre dans UIMA

Lorsque l'on travaille avec plusieurs vues au sein d'un même CAS, on se retrouve rapidement confronté au besoin de recopier certaines annotations d'une vue vers une autre.

Lire la suite

26mai 2011

MongoDB c'est cool

Je suis récemment tombé amoureux de la base de données MongoDB. Ses avantages sont nombreux mais j'apprécie tout particulièrement l'absence de schéma et le shell. L'absence de schéma permet d'insérer des structures de données différentes dans les collections ou de modifier les structures existantes de manière transparentes sans impact sur les autres entrées (bye bye ALTER). Le shell quant à lui offre une réelle souplesse qui permet de réaliser des opérations complexes qui auraient nécessiter l'écriture de code sur des bases SQL.

Lire la suite

09mai 2011

Firefox 4 en 64 bits

Un rapide billet pour indiquer à ceux qui comme moi veulent utiliser une version 64 bits de Firefox sans devoir utiliser les compilations nocturnes que des releases 64 bits sont disponibles sur le ftp de mozilla :

http://releases.mozilla.org/pub/mozilla.org/firefox/releases/4.0.1/linux-x86_64/fr/

En fait je me sers surtout de ce billet comme un pense-bête pour m'éviter quelques requêtes Google la prochaine fois que je voudrai réinstaller FF :)

26avr. 2011

Rencontre OSM au Flesselles le 27 avril 2011 à 19h30

Quoi ?

Une rencontre informelle entre contributeurs OpenStreetMap ouverte à tout le monde. L'objectif plus particulier de cette rencontre est de discuter de l'organisation d'un atelier OpenStreetMap à la Cantine.

Que vous soyez contributeur, utilisateur ou simple curieux, vous êtes les bienvenus.

Quand ?

Le mercredi 27 avril 2011 à partir de 19h30.

Où ?

Au café Le Flesselles à Nantes (carte)

05avr. 2011

Présentation aux Rendez-vous de la recherche à la Cantine de Nantes

Aujourd'hui, J'ai joué le jeu des Rendez-vous de la Recherche (RdvR pour les intimes) à La Cantine de Nantes. J'y ai présenté mon parcours de jeune chercheur, mon équipe et mon domaine de recherche : le Traitement Automatique des Langues (TAL).

Les Rendez-vous de la Recherche sont organisés par Jean Bézivin et Jean-Pierre Guédon, L'objectif de ces présentations informelles est de faire se rencontrer le monde de la recherche et de l'industrie. Le chercheur présente ses travaux, son équipe et son domaine. Les industriels piochent dans le flot d'information les éléments qui pourraient permettre de résoudre certaines de leurs problématiques et échangent sur ce sujet avec le chercheur. Ceci peut déboucher sur des collaborations, des initiatives...

Le support de ma présentation est disponible sur scribd.

17mar. 2011

Je soutiens ma thèse !

Je soutiendrai ma thèse le Jeudi 24 mars 2011 à 9h30 dans la salle 3 du LINA.

Non seulement la séance est publique, mais de plus vous êtes tous cordialement invité à y assister. Le contenu est détaillé dans la suite du billet.

Lire la suite

17mar. 2011

I'm going to defend my PhD thesis !

I will defend my PhD thesis on March, 24th 2011 at 9:30 am in room 3 of LINA.

Not only is the defense public, but you are welcome to attend. The thesis content is detailed in the rest of this bill.

Lire la suite

17mar. 2011

Visualiser un espace à plusieurs dimensions en 3D

L'analyse en composantes principales (ACP) permet de calculer les hyperplans d'un espace vectoriel tel qu'une projection sur ces plans conserve un maximum d'entropie. Cette approche permet entre autres choses de projeter des espaces ayant un très grand nombre de dimensions dans des espaces de dimensions réduites tout en limitant la perte d'information.

L'utilisation combinée de scikit-learn et de matplotlib permet de produire très rapidement des réductions de dimension et de les visualiser. J'utilise ces bibliothèques pour visualiser dans un espace à 2 ou 3 dimensions des espaces vectoriels correspondant à des représentations de documents à l'aide de traits particuliers.

Lire la suite

06fév. 2011

Présentation OpenStreetMap à la médiathèque de Rezé

Ce samedi 6 Février, j'ai rapidement (2h tout de même) présenté OpenStreetMap dans le cadre des Samedi du Net à la médiathèque de Rezé.

Si d'autres personnes sont intéressées pour réaliser le même genre de présentation (il faut évangéliser au maximum ^^), je tiens les supports à disposition sous licence CC-by-sa :

03fév. 2011

Nantes passe à l'OpenData

C'est du tout frais — même si on l'attendait plus ou moins depuis quelques jours — Jean-Marc Ayrault a profité de l'inauguration de la Cantine Numérique à Nantes pour annoncer que la ville de Nantes se lançait dans la libération de ses données et rejoignait par conséquent le mouvement OpenData.

Lire la suite

28janv. 2011

Internet Censorhip in Egypt

I don't publish much in English, but here is an exception.

As you may know, Egypt has been cut off from the Internet ! This is the first time ever a government commits such an act against the Internet... and this should not happen again. I modestly relay the initiative of FDN to provide an RTC Internet access to the Egyptians so that they can get connected back.

Internet neutrality is a necessity. Internet can only be controled by the people !

Please relay...

26janv. 2011

Interroger OpenStreetMap en Python avec OsmApi

Le projet OpenStreetMap permet de générer de très jolies cartes qui illustreront prochainement Wikipédia. Mais l'intérêt du projet ne s'arrête pas à la création des cartes. Il s'agit bel et bien, à l'instar de Wikipédia, de créer une base de données géographique libre de droit.

Ces données sont accessibles au travers d'une API à qui sait où chercher. Je présente dans ce billet l'utilisation d'une bibliothèque Python permettant d'interroger cette API développer par un collègue Nantais.

Lire la suite

25janv. 2011

OpenStreetMap : requêtes avancées avec l'XAPI

OpenStreetMap est à la cartographie ce que Wikipédia est à l'encyclopédie. Le plus souvent les utilisateurs se contentent des cartes générées que ce soit pour imprimer un plan ou bien à des fins de navigation. Lorsque l'on souhaite accéder aux données du projet il faut habituellement utiliser l'API qui est assez limitée en fonctionnalités et en surtout en masse de données accessibles.

L'XAPI permet de récupérer des données plus vastes et filtrées.

Lire la suite

12janv. 2011

Cours de TALN (3) : n-grammes

Voilà le troisième et dernier opus du cours dont je parlais ici. J'avais présenté le premier opus ici et le second ici.

Lire la suite

09janv. 2011

Cours de TALN (2) : morphologie et étiquetage des rôles grammaticaux

Voilà le second opus du cours dont je parlais ici. J'avais présenté le premier opus ici.

Lire la suite

09janv. 2011

Python et Tree Tagger

Tree Tagger est un outil d'étiquetage des rôles grammaticaux disponible pour plusieurs plateformes et pour plusieurs langues. Si sa licence n'est pas libre, il peut être utilisé dans un cadre de recherche ou bien pour l'éducation.

Il existe un projet de wrapper Python pour cet outil qui pourrait m'être utile pour mon cours de TALN.

Lire la suite

07janv. 2011

Nettoyage des pages Web avec Web-Harvest

Dans un projet en cours, j'ai besoin d'un outil de nettoyage des pages Web. Par nettoyage des pages Web, j'entends l'isolement et l'extraction des éléments de la page qui constituent son contenu et le filtrage du reste (menus, publicité, scripts...). J'ai notamment proposé avec mon encadrant un sujet de stage à destination des M1 ALMA de l'Université de Nantes. (Le sujet a été écrit en quelques minutes et je me rends compte de plusieurs fautes, veuillez m'en excuser).

Lors de l'écriture de ce sujet de stage, j'ai découvert Web-Harvest, un outil d'extraction de contenu depuis le Web.

Lire la suite

06janv. 2011

PPDA accusé de plagiat... une opportunité pour ma thèse ?

C'est l'un des sujets chauds de cette rentrée hivernale : il semblerait que le livre à paraître sur Hemingway de PPDA publié par les Éditions Arthaud soit un plagiat. C'est le quotidien L'Express qui a levé le lièvre, rapidement relayé par bien d'autres.

Cette histoire serait une très belle illustration pour conclure ma thèse sur la dérivation de texte ! Si PPDA ou les éditions d'Arthaud voulaient bien m'envoyer une version du livre, je pourrais la confronter à l'aide de mes algorithmes sur la biographie signée Peter Griffin et parue en français aux éditions Gallimard. Mais parle-t-on bien de plagiat et qu'est-ce que cela signifie ?

Lire la suite

04janv. 2011

Petit script pour découvrir les expressions rationnelles

Comme j'en discutais dans mon billet précédent, mon premier cours cette année a principalement porté sur les expressions rationnelles. J'ai tiré deux bilans de ce cours :

  • il faut que les étudiants manipulent au maximum
  • il faut qu'ils comprennent mieux ce qui se passe dans les moteurs d'expressions rationnelles pour corriger leurs erreurs

J'ai donc écrit un script Python pour les accompagner dans leur découverte des expressions rationnelles.

Lire la suite

03janv. 2011

Cours de TALN (1) : expressions rationnelles

Voilà, suite à mon précédent billet, je me suis décidé à me lancer dans l'écriture du cours que je dois donner demain.

Lire la suite

- page 2 de 7 -