L'étiquette des rôles grammaticaux (Part Of Speech en anglais), ou étiquetage morpho-syntaxique, correspond la catégorie grammaticale de ce mot : article, verbe, adjectif, ... Prenons ainsi la phrase L'indice parisien est passé pour la première fois sous le seuil symbolique des 4 500 points., les rôles grammaticaux associés au mots sont les suivants :

  • L' : article défini
  • indice : nom
  • parisien : adjectif
  • est : verbe au présent
  • passé : verbe au participe passé
  • pour : préposition
  • la : article défini
  • première : adjectif
  • fois : nom
  • sous : préposition
  • le : article défini
  • seuil : nom
  • symbolique : adjectif
  • des : préposition
  • 4 500 : valeur numérique
  • points : nom
  • . : signe de ponctuation

La catégorie grammaticale des mots d'une phrase est une connaissance précieuse en TAL. Par exemple, si l'on souhaite connaître le sens d'un énoncé, on risque de s'intéresser plus particulièrement aux noms et aux verbes plutôt qu'aux autres catégories. Ainsi, pour la phrase précédente, la collection de mots : indice, est, passé, fois, seuil symbolique, 4 500, points est plus porteuse du sens de la phrase que : L', parisien, pour, la, première, sous, le, des. La première collection, certainement après un filtrage des "mots courants", correspondrait aux mots indexés par un moteur de recherche et utilisés comme mots clés.

Il existe un certain nombre d'outils permettant d'étiqueter les mots de leur catégorie grammaticale, le plus connu étant certainement l'étiqueteur de Brill. Un étiqueteur basé sur le modèle d'apprentissage des arbres de décision, est de plus en plus couramment utilisé dans la communauté TAL : TreeTagger. Ce dernier est paramétrable ce qui lui permet de traiter un nombre non négligeable de langues autres que l'anglais (le français notamment !).

Voici la sortie de Tree Tagger pour la phrase précédemment étudiée, les étiquettes morpho-syntaxiques sont accompagnés des lemmes des mots (leur forme graphique canonique). La liste des étiquettes est disponible sur le site de Tree Tagger.

L'	DET:ART	le
indice	NOM	indice
parisien	ADJ	parisien
est	VER:pres	être
passé	VER:pper	passer
pour	PRP	pour
la	DET:ART	le
première	NUM	premier
fois	NOM	foi|fois
sous	PRP	sous
le	DET:ART	le
seuil	NOM	seuil
symbolique	ADJ	symbolique
des	PRP:det	du
4	NUM	@card@
500	NUM	@card@
points	NOM	point
.	SENT	.