Qu'est-ce que Tree-tagger ?
TreeTagger est un outil qui permet d'annoter un texte avec des informations sur
les parties du discours (genre de mots: noms, verbes, infinitifs et
particules) et des informations de lemmatisation. Il a été développé
par Helmut Schmid dans le cadre du projet «TC » dans le ICLUS (Institute for Computational Linguistics
of the University of Stuttgart). TreeTagger permet l'étiquetage de
l'Allemand, l'Anglais, le Français, l'Italien, le Deutch, l'Espagnol,
le Bulgare, Le Russe, le Grec, le Portuguais, le chinois et les textes
français anciens. Il est adaptable à d'autres langages si des lexiques
et des corpus étiquetés manuellement sont disponibles.
TreeTagger peut également être utilisé comme un « chunker » pour
l'Anglais, l'Allemand et le Français (étiquetage des parties du
discours, délimitation des groupes syntaxiques, étiquetage des groupes).
Utilisation de tree-tagger dans les différents scripts Perl
Une fois le texte nettoyé, et si un contenu textuel à été
extrait, nous pouvons appeler la fonction
&etiquetageavectreetagger :
Il faut définir la fonction
&etiquetageavectreetagger, qui permet d'inclure
l'application tree-tagger.exe :
On définit le fichier de sortie pour l'étiquetage tree-tagger :
Télécharger le script perl avec treetagger
Télécharger le script perl XML::RSS avec treetagger
De là on se retrouve avec des fichiers de sorties étiquetées
Télécharger le fichier de sortie Treetager Rub EXAMENS-2009
[haut de page]