Objectif de la BàO2
Boîte à outil 2 récupère d'abord des fichiers xml crées par la première boîte. Puis on étiquète ces fichiers avec une part Cordial, et une autre part Treetagger pour obtenir des fichiers qui contiennent FORME / CATEGORIE / LEMME.
Cordial
Il prend en entrée un fichier en format texte (texte brut), et en sortie, il génère un nouveau fichier en format cnr avec 3 colonnes correspondant à forme, lemme et catégorie.
Ici pour téléchanrger le programme.
L'étiquetage avec cordial est fait manuellement. Pour lancer Cordial, on le paramètre comme ceci:
Treetagger
On modifie le script de parcours d’arborescence des fils RSS pour étiqueter les contenus textuels. En sortie, le fichier est en format XML.
Treetagger s'utilise en ligne de commande :
tree-tagger [options] <parametres> <textein> <texteout>
<parametres> : le fichier paramètre
<textein> : le texte en entrée, à étiqueter (avec un mot par ligne).
<texteout> : le nom du fichier qu’il va générer en sortie.
-token: afficher les tokens
-lemma: afficher les lemmes
-no-unknown: ne pas afficher si le lemme n'est pas connu, étiqueté unknown
Il prend en entrée un fichier texte contenant un mot par ligne, et crée un fichier
*.xml en sortie.
1) La tokenisation est faite avec un programme Perl (tokenise-fr.pl).
2) L'appel du programme tree-tagger.exe se fait avec la fonction de Perl "systèm".
3) La conversion des données en sortie un fichier XML avec un programme Perl (treetagger2xml.pl).
system ("perl ./treetagger-win32/cmd/tokenise-fr.pl toto.txt | treetagger-win32/bin/tree-tagger.exe treetagger-win32/lib/french.par -lemma -token -no-unknown > ./RESULTAT/texte_d_etiquetage.txt");