Avant propos

Avant toute chose il est nécessaire d'installer les plugins Eclipse de UIMA. Pour ce faire, il faut ajouter le dépôt Eclipse : http://www.apache.org/dist/incubator/uima/eclipse-update-site/ dans l'outil de gestion des plugins. Ensuite il suffit de rechercher UIMA et d'installer tous les plugins associés.

À noter que les personnes ayant installé les plugins des versions antérieures doivent simplement faire une mise-à-jour afin de faire apparaître le plugin CAS Editor qui n'était pas présent auparavant.

Un petit redémarrage d'Eclipse et vous devriez être paré pour la suite...

Initialiser un projet

Le fonctionnement du CAS Editor est lié à :

  • une vue CAS Editor
  • un projet CAS Editor

Ceci est spécifique à la version 2.3 d'UIMA et devrait évoluer dans les prochaines versions.

La vidéo ci-dessous illustre les étapes nécessaires à l'initialisation d'un projet et l'importation d'un corpus :

  1. Créer un projet CAS Editor
  2. Passe en vue CAS Editor afin d'accéder aux fonctionnalités spécifiques
  3. Créer un répertoire corpus
  4. Importer dans ce répertoire corpus des fichiers textes afin de les transformer en CAS
  5. Ouvrir et visualiser le contenu des fichiers (CAS) du corpus

Ajouter des annotations manuellement

Il n'est possible d'ajouter des annotations que si le type d'annotation à ajouter est présent dans le Type System. Si toutefois vous ajoutez des types d'annotation à un Type System qui est déjà utilisé par le projet CAS Editor, les nouveaux types ne vont pas apparaître. Il est nécessaire de fermer puis réouvrir le projet.

Il y a deux façons d'ajouter une annotation dans un CAS, l'une permet d'ajouter la même annotation par un simple appuie sur Entrée :

  1. Sélectionner le texte
  2. Sélectionner le type d'annotation dans le Feature View
  3. Appuyer sur Entrée

l'autre permet de choisir le type de chaque nouvelle annotation rajoutée :

  1. Sélectionner le texte
  2. Appuyer sur shift + entrée
  3. Choisir l'annotation à ajouter

La vidéo ci-dessous illustre ces deux méthodes :

Utiliser un AE pour ajouter des annotations

Il est tout à fait possible d'utiliser directement un Analysis Engine directement dans le CAS Editor afin d'ajouter des annotations aux CAS. La procédure est toutefois un peu contraignante et surtout peu intuitive. Je vais décrire l'approche qui consiste à utiliser un composant empaqueté dans un PEAR.

Construction et installation du PEAR

Pour l'exemple je vais prendre le WhitespaceTokenizer, ce dernier a deux avantages pour ce tutoriel :

Il nous faut la version source du paquet UIMA Annotator Addons & Simple Server & Pear packaging tools. Une fois téléchargée, décompressez là quelque part et placez-vous dans le répertoire uimaj-annotator-addons-2.3.0-incubating/WhitespaceTokenizer/.

Il nous faut modifier un peu le pom.xml afin d'y ajouter les dépôts qui sont normalement déclarés dans le pom parent :

  1. ...
  2. <repositories>
  3. <repository>
  4. <id>apache</id>
  5. <name>Apache UIMA</name>
  6. <layout>default</layout>
  7. <url>http://people.apache.org/repo/m2-incubating-repository/</url>
  8. </repository>
  9. </repositories>
  10. <pluginRepositories>
  11. <pluginRepository>
  12. <id>apache</id>
  13. <name>Apache UIMA</name>
  14. <url>http://people.apache.org/repo/m2-incubating-repository/</url>
  15. <layout>default</layout>
  16. </pluginRepository>
  17. </pluginRepositories>
  18. ...

Il est alors possible de créer le PEAR avec maven en lançant dans le répertoire du WhitespaceTokenizer :

$ mvn package

Le pear est alors créé dans le répertoire target/ sous le nom WhitespaceTokenizer.pear. Il faut l'installer à l'aide du PearInstaller.

Une fois le PEAR installé, il faut créer un répertoire processing dans le projet du CAS Editor, y importer le descripteur PEAR, l'intégrer à un composant Agregate. On peut alors le faire tourner sur une partie du corpus.

La vidéo ci-dessous présente ces dernières phases :

Visualiser et modifier les annotations

Le but du CAS Editor est tout de même de pouvoir visualiser et manipuler les annotations, ce qui se fait dans l'éditeur.

La visualisation des annotations est configurable par le menu contextuel Show annotations où l'on sélectionne les annotations à afficher. Le mode de mise en valeur de ces dernières se configure dans les propriétés du projet.

Le parcours des annotations s'opère de plusieurs manières :

  • Par le menu contextuel, Mode permet de sélectionner la façon dont on parcours/sélectionne les annotations ;
  • L'onglet Feature Structure View permet de sélectionner les types d'annotation à faire apparaître dans l'onglet Outline, il alors possible dans ce dernier de supprimer des annotations (croix rouge) ;
  • Les onglets Edit View permettent quant à eux de modifier les valeurs des champs de l'annotation sélectionnée.

La vidéo ci-dessous illustre ces différentes manipulations :