Boîte à outils 2 : Etiquetage d'un texte
  • Objectif:

Cette boîte à outils 2 consiste à récupérer chacun des mots du fichier et de les étiqueter. Et dans cette partie nous testerons deux programmes d’étiquetage (Cordial et Treetagger) intégrant un lexique de formes fléchies et de désambiguïsation lexicale.

  • Réalisation : Etiquetage avec Treetagger

Le fichier XML obtenu dans la boîte à outils 1 sera notre corpus de travail. Le travail consiste à tokeniser,c'est-à-dire découper le texte en mots afin d’avoir un mot par ligne; et à étiqueter chacun des mots avec Treetagger.

Nous utilisons le même script que celui de la boîte à outils 1 avec une petite modification. En effet, nous avons inséré cette ligne :

system("perl ./treetagger-win32/cmd/tokenise-fr.pl tmp.txt | ./treetagger-win32/bin/tree-tagger.exe ./treetagger-win32/lib/french.par -lemma -token -sgml > tmp-resultat-etiquetage.txt");

L’étiqueteur exige plusieurs paramètres :

. tokenise-fr.pl : script de tokenisation
. -lemma pour imprimer les lemmes
. -token pour imprimer les mots graphiques
. french.par : fichier paramètre situé dans le répertoire « lib », permettant l’utilisation de la bibliothèque de la langue française.


précédent<<suivant>>