Blog d'un jeune (chercheur) entrepreneur en TAL

Aller au contenu | Aller au menu | Aller à la recherche

Keyword - postgresql

Fil des billets - Fil des commentaires

18nov.

Insérer plusieurs copies locales de Wikipedia dans une base PostgreSQL

Dans ce billet, j'avais décrit une méthode permettant de créer un miroir local de Wikipédia dans une base PostgreSQL. Plus précisément, la démarche fonctionnait pour Wikinews en tant que super-utilisateur postgres, mais je ne pouvais pas aller plus en avant étant donné que mon serveur ne possédait pas assez d'espace pour accueillir un miroir Wikipédia.

Heureuse nouvelle, mon laboratoire a fait l'acquisition d'un énorme serveur (24 cœurs Xeon à 2,6GHz, 200Go de RAM, et 1,5To d'espace disque) sur lequel j'ai pu expérimenter la création d'un réel miroir Wikipédia qui plus est sur un serveur sur lequel je ne suis pas administrateur... impossible donc de passer super-administrateur de la base !

Lire la suite

21juil.

Créer une copie locale de Wikipedia dans une base PostgreSQL

Wikipédia est une ressource formidable en termes de connaissances ! La connaissance du monde bien sûr par son rôle d'encycolpédie, mais également une connaissance du langage : il s'agit très certainement du plus grand corpus libre de textes récents et variés. Qu'il s'agisse des articles plus ou moins spécialisés de l'encyclopédie, des ressources lexicales du Wiktionary ou encore des ressources journalistiques de Wikinews.

Si l'on veut tirer profit de ces ressources pour faire de la recherche, il est très rapidement intéressant d'avoir une copie locale de Wikipédia. Ceci économise les serveurs de la fondation et offre des performances bien supérieures.

Cette article expose pas à pas les étapes nécessaires à la création d'un miroir Wikipédia en local dans une base PostgreSQL. L'opération est presque triviale pour un miroir MySQL mais PostgreSQL offre à mon avis plus de flexibilité pour de meilleures performances.

Lire la suite