BAO 2
Objectif
Nous voici dans l'étape numéro 2 de notre boite à outil . Il s'agit ici d'étiqueter les sorties trouvées précédemment . On va procéder à un étiquetage morphosyntaxique sur le texte, grâce à deux outils bien distincts .
La premiere méthode consiste à étiqueter les syntagmes dès l'extraction du texte via TreeTagger , qu'on intègre par commande d'appel dans script de base (utilisé pour la bao1) . Pour la seconde, on utilise Cordial qui est une interface graphique et qui prend comme entrée un fichier format texte brut, d'où l'interet d'avoir eu une sortie xml et une sortie txt dans la première boite à outil .
1) Etiquetage par treetagger
TreeTagger est un outil d'annotation de texte en proposant des informations sur les parties du discours et des informations de lemmatisation. Il a été développé par Helmut Schmid dans le cadre du projet « TC » dans le ICLUS (Institute for Computational Linguistics of the University of Stuttgart). Il permet l'étiquetage de l'Allemand, l'Anglais, le Français, l'Italien, le Deutch, l'Espagnol, le Bulgare, Le Russe, le Grec, le Portuguais, le Chinois et les textes en Français anciens. Il est adaptable à d'autres langages si des lexiques et des corpus étiquetés manuellement sont disponibles .
Le problème est que Treetagger ne prend en entrée que les fichiers qui ont un seul mot par ligne . Il faut donc qu'on modifie notre fichier . Pour celà, on utilise le programme écrit en perl "tokenize-fr.pl". Pour l'étiquetage du texte, on utilise tree-tagger.exe et afin d'avoir une sortie en xml, on fait tourner le programme treetagger2xml.pl .
tmp.txt va contenir le contenu de chaque flux et token.txt est le résultat de la tokenisation .
Dans le script en perl sur lequel on travaille, on va appeller Treetagger par system(appel-de-treetagger-pour-etiquetage), qui nous permet d'executer une commande . L'option -lemma nous permet d'écrire les lemmes, -no-unknow signifie qu'on refuse qu'il étiquete un lemme comme étant inconnu et donc oblige à réécrire le token .
2) Etiquetage par Cordial
Cordial est un logiciel de correction grammaticale et d'aide à la rédaction pour la langue française . On va se servir de cet outil pour étiqueter nos fichiers, de manière donc plus "manuelle" cette fois .
Cordial ne prend en entrée que des fichiers en txt, d'où l'utilité d'avoir créé dans la BAO1 une sortie en txt également sur nos rubriques Medias et Culture . Il génère un fichier cnr dans lequel on a des informations sur la partie du discours la forme et le lemme . Au niveau de l'étiquetage, on a différentes possibilités d'usage dans le logiciel . Nous choisissons de ne pas numéroter les mots de chaque phrase, d'abréger en majuscule le type gramatical, de ne pas utiliser d'encodage spécialisé et de ne pas signaler les erreurs .
Résultats
Voir Script Etiquetage avec Cordial
Voir Script Etiquetage avec Treetagger
Les Outils
Le logiciel Cordial est un correcteur d'orthographe et grammaire francaise. C'est aussi un dictionnaire de synonymes, analyse syntaxique, logiciel d'aide à la rédaction.lire plus..
TreeTagger est un outil qui permet d'annoter un texte avec des informations sur les parties du discours (genre de mots: noms, verbes, infinitifs et particules) et des informations de lemmatisation.lire plus..
Retourner en haut de la page
|