2. Reformatage en xml
Pour une meilleure exploitation de l'étiquetage de treetagger, nous convertissons les fichiers générés en structure xml grâce à un programme en Perl (
treetagger2xml.pl).
Il est appelé tout de suite après celui du treetager toujours grâce à la commande system :
system ("perl tt/treetagger2xml.pl ttt/$nomfichier ");
On obtient ce
résultat.
Chaque element (un par ligne) est contenu dans une balise <element> </element> dans laquelle figure la catégorie, le lemme et le token en question.
Voici le
script de la boîte à outils 2 et le
résultat.
CORDIAL
Cordial est un outil de correction de correction grammaticale et d'aide à la redaction payant. Conçu par la société Synapse Développement, ce logiciel peut aussi proceder à l'étiquetage de
morpho-syntaxique de texte. Contrairement à treetagger, pour utiliser Cordial, nous devons absolument passer par une interface graphique visible
ici.
Cet outil est néanmoins
plus satisfaisant en terme de précision de l'analyse.
Il prend en entrée un fichier texte et donne en sortie un fichier .cnr. Voici un exemple de sortie Cordial du fichier
"A_la_Une".