Filtres de MWDumper

L'outil mwdumper inclut un certain nombre de filtres commandables à partir de la ligne de commande :

  • LatestFilter permet de ne conserver que la dernière révision d'une page ;
  • NamespaceFilter permet de ne conserver que les articles qui appartiennent à un espace de nom particulier (passé en paramètre) ;
  • NotalkFilter permet d'ignorer les pages de discussion ;
  • TitleMatchFilter permet de ne conserver que les pages dont le titre valide une expression rationnelle donnée en paramètre ;
  • ListFilter permet de ne conserver que les pages dont le titre de la page de données ou de discussion est présent dans un fichier passé en paramètre (un nom de page par ligne) ;
  • ExactListFilter est identique au filtre précédent si ce n'est que son application est plus stricte car seul le titre de la page est considéré ;
  • RevisionListFilter reprend le principe des filtres précédents si ce n'est qu'il s'applique aux identifiants de révisions ;
  • BeforeTimeStampFilter ne conserve que les données produites avant une date passée en paramètre ;
  • AfterTimeStampFilter ne conserve que les données produites après une date passée en paramètre ;

Voir le billet Insérer plusieurs copies locales de Wikipedia dans une base PostgreSQL pour un cas d'utilisation de ces filtres. La combinaison de ces filtres permet de contrôler avec précision les données à charger, nous allons donc nous en contenter.

Paramétrage du composant

On peut classer les filtres en deux familles : ceux qui nécessitent des paramètres et ceux qui n'en nécessitent pas. J'ai donc choisi pour le moment d'utiliser des paramètres booléens pour les filtres sans paramètre, et des paramètres chaînes de caractères pour les autres.

L'activation des paramètres booléens suffit à activer les filtres correspondant : IgnoreTalks et LatestRevisionOnly.

Pour activer les autres filtres il suffit de les configurer en renseignant les champs dédiés. Si les champs restent non renseignés alors les filtres ne sont pas activés : ConfigNamespacesFilter, ConfigTitleMatch, ConfigListFilter, ConfigExactListFilter, ConfigRevisionListFilter, ConfigBeforeTimestampFilter, ConfigAfterTimestampFilter.

Nouvelle version

Voici une nouvelle version du collection reader pour Wikipédia, estampillée 0.2, qui ne prend toujours pas en compte la syntaxe, mais qui permet de filtrer le type de contenu à charger à partir du dump XML. Pour utiliser le composant, il est nécessaire d'avoir le jar de mwdumper dans le classpath.

Autres articles