Wikipédia, structuration des données

L'encyclopédie Wikipédia contient tout un tas d'informations mais je me concentrerai particulièrement sur le contenu même : les articles. Je propose de classer les informations concernant ces derniers en quatre grandes catégories :

  • Position de l'article dans l'encyclopédie (portail, catégories, ...)
  • Versions de l'article (révisions, ...)
  • Structuration de l'article (titre, sous-titre, ...)
  • Macros et mise en forme du texte (gras, italique, ...)

Position de l'article dans l'encyclopédie

On peut considérer la Wikipédia comme un ensemble de pages liées selon trois grandes relations :

Les catégories structurent l'encyclopédie à la manière d'une ontologie ou d'un thésaurus. Une page peut appartenir à une ou plusieurs catégories. De plus, les catégories sont hiérarchisées, l'appartenance à une catégorie implique l'appartenance à toutes les catégories parentes.

Les liens interlangues marquent les pages en relation de traduction avec la page courante.

Les liens internes permettent au sein d'une page de faire référence à d'autres pages de l'encyclopédie, il s'agit d'une structuration qui n'a qu'un impact local. La signification de ces références est très variable et difficilement identifiable.

Versions de l'article

Le principe de l'encyclopédie collaborative est que tout le monde peut modifier un article, ce qui amène à de multiples révisions de ces derniers. Lorsque vous cliquez sur l'onglet Historique d'un article, vous pouvez visionner ces différentes révisions, leur auteur, et éventuellement un commentaire précisant l'apport de la révision.

Structuration d'un article

Le contenu d'un article se structure à l'aide de titres, de paragraphes ainsi que de divers éléments de mise en forme : [tableaux], [formules], [listes], ...

Parmi les éléments de mise en forme, on peut également noter l'existence de plusieurs macros pour les [modèles], [dates], [liens interwiki], ...

Choix d'un Type System

Je ne crois personnellement pas à l'existence de Type Systems génériques pouvant être partagés par tous les composants. De mon point de vue, un Type System va être approprié au traitement d'une tâche particulière, chercher à en produire un suffisamment générique pour toutes les tâches seraient une perte de temps et mènerait certainement à un TS difficile à utiliser.

Personnellement, je vais utiliser Wikipedia dans le cadre de ma thèse sur la détection de dérivation de texte. Ce qui m'intéresse c'est donc de générer un CAS par article dans lequel on retrouvera les différentes révisions dudit article. Je m'intéresse donc :

  • à la notion d'article
  • aux notions de révision
  • à la structuration du contenu d'un article à l'aide des titres et des paragraphes
  • au texte

Après réflexion j'en suis donc arrivé à cette modélisation :

TS Wikipedia (png)

Cette modélisation ne correspond pas exactement aux besoins d'un TS UIMA. Ainsi, les relations de composition se manifestent par un phénomène de couverture des annotations, entraînant la disparition des attributs correspondant.

Vous trouverez le descripteurs correspondant à ce TS ici.

Autres billets