PROJET BOITE A OUTILS
créé par Nadia Makouar & Maria Doganova
Langues O'


Etiquetage avec Treetagger et Cordial



2. Reformatage en xml

Pour une meilleure exploitation de l'étiquetage de treetagger, nous convertissons les fichiers générés en structure xml grâce à un programme en Perl (treetagger2xml.pl). Il est appelé tout de suite après celui du treetager toujours grâce à la commande system :
system ("perl tt/treetagger2xml.pl ttt/$nomfichier ");

On obtient ce résultat.
Chaque element (un par ligne) est contenu dans une balise <element> </element> dans laquelle figure la catégorie, le lemme et le token en question. Voici le script de la boîte à outils 2 et le résultat.



CORDIAL

Cordial est un outil de correction de correction grammaticale et d'aide à la redaction payant. Conçu par la société Synapse Développement, ce logiciel peut aussi proceder à l'étiquetage de morpho-syntaxique de texte. Contrairement à treetagger, pour utiliser Cordial, nous devons absolument passer par une interface graphique visible ici.

Cet outil est néanmoins plus satisfaisant en terme de précision de l'analyse.
Il prend en entrée un fichier texte et donne en sortie un fichier .cnr. Voici un exemple de sortie Cordial du fichier "A_la_Une".