A partir du programme obtenu dans la BàO 1, la BàO 2 consiste à étiqueter les contenus textuels avec Tree-Tagger et Cordial.
Etapes :
-Etiquetage avec TreeTagger en ligne de commande
-Etiquetage avec Cordial via l'interfaçe graphique
Le résultat de la catégorisation est un fichier texte au format tabulé dans lequel chaque mot est représenté sur une ligne qui contient la forme suivie de sa catégorie (2ème colonne) puis de son lemme (3ème colonne). Les étiquettes de TreeTagger sont essentiellement limitées à la catégorie (hormis les verbes), les traits morphosyntaxiques étant difficile à déterminer automatiquement. L'outil Cordial complète cette limitation en utilisant des jeux d'étiquettes plus riches. En effet, Cordial Analyseur, développé par la société Synapse Développement, fournit par exemple des descriptions morphosyntaxiques complètes.
Cependant, ces outils qui effectuent ces opérations ne garantissent pas un résultat irréprochable. Des erreurs sont à envisager, par exemple lorsque les mots sont mal orthographiés, ambigus, ou apparaissent dans des structures syntaxiques complexes. Toutefois, les informations obtenues sont exploitables et l'utilité de ces outils est indispensable pour des données volumineuses.
1.Segmentation
Le module du TreeTagger (utf8-tokenize.perl) segmente en mot. L'outil est sensible à la présence ou l'absence d'espaces devant ou derrière les apostrophes, les virgules ou les points. Il est alors recommandé de ne pas détacher les mots dans les textes avant de les étiqueter.
2. Catégorisation
Les unités du texte étant identifiées, le TreeTagger détermine la catégorie de chacune d'elles en fonction de son lexique et des procédures de désambiguïsation qu'il implémente.
3. Lemmatisation
Le Treetagger propose deux modes de lemmatisation. Seules les formes qui appartiennent à son lexique sont lemmatisées. Toutes les autres reçoivent la valeur unknown qui indique que son lemme correspondant est inconnu.
De nombreux mots sont au final inconnus du Treetagger car les mots peuvent par exemple mal orthographiés, ou dans une langue étrangère.
La lemmatisation du Treetagger est une simple projection lexicale. Aucune désambiguïsation n'est réalisée. Si la forme et la catégorie ne permettent pas d'identifier un lemme unique, le Treetagger fournit toutes les réponses possibles.