Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

07août

Visualiser la distribution d'un attribut Mongo avec R

Les statistiques descriptives ont ceci de formidable qu'elles permettent rapidement de se donner une idée de ce à quoi ressemblent des données... ces fameuses données qui peuplent nos bases de données à Dictanova :)

Ainsi, nous souhaitons parfois savoir quelles sont les valeurs d'un attribut particulier.

Lire la suite

08mai

Piloter Gnumeric depuis Python

Gnumeric est le tableur de l'environnement GNOME. Il a l'avantage d'être beaucoup plus léger que LibreOffice Calc ce qui le rend particulièrement agréable d'utilisation pour travailler sur des tableaux de taille raisonnable.

Habituellement, je travaille dans un premier temps mes données sous Gnumeric, Calc ou Open Refine selon leur complexité et bien sûr lorsqu'elles peuvent tenir en mémoire. Une fois les données nettoyées, j'exporte le tout en CSV pour les analyser avec R ou directement en Python. Cependant je me suis récemment aperçu que Gnumeric offrait une console Python... j'ai donc essayé.

Lire la suite

23déc.

Extraction de données d'OpenStreetMap hors ligne

Dans ces différents billets, j'avais expliqué comment extraire des données depuis OpenStreetMap en interrogeant directement les serveurs. Dans ce billet, je propose une approche plus classique qui consiste à directement traiter les fichiers OSM à l'aide d'Osmosis.

Pour l'exercice, je propose de réitérer le travail d'extraction des arrêts de bus et de tramway mais sur la ville d'Angers. Pourquoi ? Parce qu'on me l'a demandé et que l'exercice est intéressant :)

Lire la suite

03sept.

Cartopartie Ouganda ce mercredi 5 septembre à Nantes

La Cantine Numérique et les contributeurs OpenStreetMap nantais organisent une session d'initiation aux outils de cartographie et notamment JOSM :

le Mercredi 5 septembre, à 18h , à La Cantine de Nantes

En participant à cet atelier, non seulement vous apprendrez à utiliser JOSM (l'outil ultime du contributeur OSM) mais en plus vous ferez votre BA puisque l'objet de l'atelier est de cartographier une partie de l'Ouganda à partir de cartes satellites afin de faciliter le travail des organisations humanitaires sur place !

Venez nombreux :)

21juil.

Exporter des éléments géoréférencés depuis OSM avec JOSM

La base de données OSM est une formidable source d'information concernant les lieux et autres artefacts composant nos villes et nos campagnes. Malheureusement, les gens perçoivent souvent le projet au travers uniquement des rendus de cartes et passent ainsi à côté de toute cette richesse. Il faut dire qu'interroger la base de données n'est pas chose aisée, les diverses API ne sont pas forcément facile à prendre en main, en particulier lorsque l'on n'est pas développeur. Je me suis moi-même cassé plusieurs fois les dents dessus lors d'hackatons.

Je propose dans ce billet une méthode assez simple et directe pour récupérer des données depuis OSM en utilisant le système de filtres de JOSM.

Lire la suite

03juin

Migrer une partie d'un dépôt subversion vers un autre dépôt

Avec l'expérience, je me rends compte que la structuration d'un dépôt subversion n'est jamais satisfaisante et que l'on se retrouve continuellement à vouloir bouger des choses, fusionner certains projets, en éclater d'autres... Parfois il est préférable de repartir proprement sur un nouveau dépôt, sans perdre l'historique des révisions accumulés dans l'ancien.

Lire la suite

19mai

Plantage de Tomcat : java.lang.OutOfMemoryError: PermGen space

Depuis plusieurs semaines je constate des plantages réguliers de Tomcat avec pour seule trace dans les logs l'abscon message :

java.lang.OutOfMemoryError: PermGen space

Lire la suite

02mar.

Stage OpenStreetMap à Nantes

La Biliothèque de Rezé organise un stage sur 3 jours dédié à la cartographie sur Internet et en particulier OpenStreetMap. Si vous êtes de la région nantaise et que vous avez toujours souhaité vous essayer à OSM sans n'avoir jamais osé, c'est l'occasion !

Le stage est animé par deux contributeurs à OSM et devrait être passionnant. Il se tiendra du 13 au 16 mars 2012 de 19h à 21h à la Médiathèque Diderot.

Attention, l'inscription est obligatoire pour pouvoir participer. Pour en savoir plus : le petit flyer de présentation.

09janv.

Premiers pas avec UIMA AS

UIMA offre un cadre de développement structurant pour la mise au point de chaînes de traitement de l'information non structurée. S'il permet simplement de déployer des chaînes complexes et tirer parti de la puissance de calcul des processeurs multicœurs, l'ordonnanceur -- le CPM -- a plusieurs limites :

  • Il n'est pas aisé de déployer une chaîne sur plusieurs machines ;
  • L'affectation de ressources se fait au niveau de la chaîne (CPE) et non au niveau des composants alors que le coût d'exécution de ces derniers est fortement variable ;
  • Les chaînes ne peuvent pas directement traiter un flux continu de données.

Le développement d'UIMA AS cherche à répondre à ces limitations.

Lire la suite

05janv.

Installation des plugins UIMA-AS sous Eclipse Indigo

Au sein de Dictanova, nous avons des besoins importants en termes de distribution de la charge de calcul. Le CPM classique d'UIMA (l'organe chargé de l'ordonnancement des traitements) ne répond pas suffisamment à nos besoins et nous nous tournons donc vers UIMA AS (pour UIMA Asynchronous Scaleout) qui offre des possibilités de montées en charge beaucoup plus importantes en permettant notamment de déployer les Analysis Engine dans plusieurs JVM et sur plusieurs machines.

Je décris dans ce billet la procédure que j'ai mise en oeuvre pour installer les plugins UIMA AS sous Eclipse Indigo.

Lire la suite

22nov.

Ouverture des données publiques à Nantes

Ça y est c'est officiel, Nantes a lancée sa plateforme OpenData. Ça s'est passé ce lundi 21 novembre 2011 à la Cantine --- comme tous les évènements cools qui ont lieu sur Nantes, et je ne dis pas ça que parce que je suis fan de la Cantine Nantaise, d'Atlantic 2 et du quatuor de choc Adrien/Magali/Florent/Lucie !

Le nombre de jeu de données est pour l'instant restreint, mais un jeu en particulier a attiré les contributeurs OSM.

Lire la suite

03nov.

Rencontre des contributeurs Nantais à OSM

Les contributeurs Nantais à Open Street Map (OSM pour les intimes) se donnent rendez-vous ce soir (jeudi 3 novembre 2011) au bar le Flesselles à 19h30.

À l'ordre du jour :

  • Boire un verre (ou plusieurs) tous ensemble
  • Discuter de la création récente de l'association OSM nationale
  • Échanger autour de nos pratiques (outils, méthodes, zones couvertes, ...)
  • Réfléchir à de futures cartoparties (accessibilité notamment)
  • Rétablir la route du campus Tertre

Ces rencontres sont ouvertes à toutes les personnes curieuses de découvrir OSM, pas seulement aux contributeurs réguliers (et moins réguliers).

19juil.

Cartopartie OSM sur Nantes le samedi 23 juillet 2011

Les contributeurs nantais à OpenStreetMap (OSM) organisent une cartopartie ce samedi 23 juillet. La journée est placée sous le signe de la circulation douce : l'objectif est de corriger et compléter les infrastructures dédiées à la circulation douce sur l'agglomération nantaise (pistes cyclables, bornes, ...).

Le rendez-vous est donné à 10h30 au Café Flesselles.

Au programme :

  • Présentation de l'état des lieux et identification des zones prioritaires pour la cartopartie avec une intervention de Benoît Grunberg de GéoVélo ;
  • Formation des équipes et affectation des zones à cartographier ;
  • Fusion des données collectées.

L’événement est ouvert à tous, que vous soyez un novice qui n'a même jamais entendu parlé d'OpenStreetMap ou bien un contributeur confirmé. L'objectif de cette rencontre est de faire avancer le projet OSM dans la convivialité.

Pensez à apporter votre matériel de cartographe (bloc-notes, GPS, appareil photo...), et si possible venez en vélo puisque la cartopartie devrait principalement s'effectuer par ce mode de transport.

11juin

Map/Reduce dans MongoDB

L'un des intérêts de la mouvance NoSQL est d'intégrer le paradigme du Map/Reduce qui consiste à partitionner les données afin de les traiter en parallèle. MongoDB ne fait pas exception et intègre directement ces concepts.

J'explique dans ce billet comment compter le nombre de documents associés à chaque valeur d'un attribut.

Lire la suite

05juin

Copier une annotation d'une vue à une autre dans UIMA

Lorsque l'on travaille avec plusieurs vues au sein d'un même CAS, on se retrouve rapidement confronté au besoin de recopier certaines annotations d'une vue vers une autre.

Lire la suite

26mai

MongoDB c'est cool

Je suis récemment tombé amoureux de la base de données MongoDB. Ses avantages sont nombreux mais j'apprécie tout particulièrement l'absence de schéma et le shell. L'absence de schéma permet d'insérer des structures de données différentes dans les collections ou de modifier les structures existantes de manière transparentes sans impact sur les autres entrées (bye bye ALTER). Le shell quant à lui offre une réelle souplesse qui permet de réaliser des opérations complexes qui auraient nécessiter l'écriture de code sur des bases SQL.

Lire la suite

09mai

Firefox 4 en 64 bits

Un rapide billet pour indiquer à ceux qui comme moi veulent utiliser une version 64 bits de Firefox sans devoir utiliser les compilations nocturnes que des releases 64 bits sont disponibles sur le ftp de mozilla :

http://releases.mozilla.org/pub/mozilla.org/firefox/releases/4.0.1/linux-x86_64/fr/

En fait je me sers surtout de ce billet comme un pense-bête pour m'éviter quelques requêtes Google la prochaine fois que je voudrai réinstaller FF :)

26avr.

Rencontre OSM au Flesselles le 27 avril 2011 à 19h30

Quoi ?

Une rencontre informelle entre contributeurs OpenStreetMap ouverte à tout le monde. L'objectif plus particulier de cette rencontre est de discuter de l'organisation d'un atelier OpenStreetMap à la Cantine.

Que vous soyez contributeur, utilisateur ou simple curieux, vous êtes les bienvenus.

Quand ?

Le mercredi 27 avril 2011 à partir de 19h30.

Où ?

Au café Le Flesselles à Nantes (carte)

06fév.

Présentation OpenStreetMap à la médiathèque de Rezé

Ce samedi 6 Février, j'ai rapidement (2h tout de même) présenté OpenStreetMap dans le cadre des Samedi du Net à la médiathèque de Rezé.

Si d'autres personnes sont intéressées pour réaliser le même genre de présentation (il faut évangéliser au maximum ^^), je tiens les supports à disposition sous licence CC-by-sa :

03fév.

Nantes passe à l'OpenData

C'est du tout frais — même si on l'attendait plus ou moins depuis quelques jours — Jean-Marc Ayrault a profité de l'inauguration de la Cantine Numérique à Nantes pour annoncer que la ville de Nantes se lançait dans la libération de ses données et rejoignait par conséquent le mouvement OpenData.

Lire la suite

- page 1 de 3