Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

07janv.

Nettoyage des pages Web avec Web-Harvest

Dans un projet en cours, j'ai besoin d'un outil de nettoyage des pages Web. Par nettoyage des pages Web, j'entends l'isolement et l'extraction des éléments de la page qui constituent son contenu et le filtrage du reste (menus, publicité, scripts...). J'ai notamment proposé avec mon encadrant un sujet de stage à destination des M1 ALMA de l'Université de Nantes. (Le sujet a été écrit en quelques minutes et je me rends compte de plusieurs fautes, veuillez m'en excuser).

Lors de l'écriture de ce sujet de stage, j'ai découvert Web-Harvest, un outil d'extraction de contenu depuis le Web.

Lire la suite

02sept.

Google Chrome ... bluffant ?

Google chrome fait son buzz ... le nouveau navigateur estampillé du G bleu fait son coming out ce soir sur le web. D'ici là tout le monde y va de son article. Une petite revue de presse et un résumé des faits les plus intéressants en attendant la sortie officielle ;)

Lire la suite

21janv.

Reprendre le contrôle du Web avec Firefox et Greasemonkey

Cet article montre, de manière didactique, le développement d'un userscript pour Greasemonkey. Il part de l'installation de l'extension à l'écriture du code en passant par l'étude du besoin.

La navigation sur le web nous ramène très souvent à parcourir encore et encore nos sites favoris. Cependant, il arrive que ces derniers aient parfois des petits défauts que nous aimerions bien pouvoir corriger afin de profiter encore mieux de leur contenu. Greasemonkey nous offre la possibilité d'écrire des scripts javascript qui nous permettrons de fixer ces petites impuretés et ainsi améliorer la lecture de nos sites favoris !

Lire la suite

28déc.

Apache : rediriger automatiquement vers un répertoire

Lorsque vous installez des applications web, sur votre espace web, il se peut que, pour une raison ou une autre, vous aimeriez que la page d'accueil de votre site soit une page présente dans un sous-répertoire.

Vous aimeriez que lorsque l'internaute qui visite votre site web tape l'adresse de ce dernier, il se trouve automatiquement projeté dans le répertoire désiré ? Pour ce faire, rendez-vous à la racine de votre site web et créez un fichier nommé .htaccess.

Ouvrez ce fichier et ajoutez-y une ligne du style :

RedirectMatch 301 ^/$ /repertoire/

... et le tour est joué ;)

Afin de s'assurer que l'astuce fontionne, il faudra recharger la configuration d'Apache et s'assurer que les fichiers .htaccess sont autorisés à surcharger les fonctions de redirection !

14nov.

Gérer la pollution publicitaire sous Mozilla Firefox

Parmis les différentes pollutions désagréables du web, la publicité en est une de taille !

Heureusement, Mozilla Firefox couplé à quelques addons vous permettra de maîtriser cette pollution et ainsi de réapprivoiser le Web.

Lire la suite