Cordial.
1. Treetagger
On
utilise Treetagger en ligne
de commande.
On appelle la commande
tree-tagger.exe avec
la fonction de Perl "système".
Tree-tagger prend comme
option -token -lemma
-no-unknown
paramètre
french.par
fichier
d'entrée textein.txt
fichier de sortie
texteout.txt
# étiqueter
toto.txt avec treetagger
system("perl
./treetagger-win32/cmd/tokenize.pl
toto.txt | treetagger-win32/
bin/tree-tagger.exe
treetagger-win32/lib/french.par -token
-lemma -sgml
-no-unknown >
titi.txt");
# reformater le
resultat de treetagger grâce
au programme donné en cours treetager2xml.pl
system("perl
./treetagger-win32/cmd/treetagger2xml.pl titi.txt");
#
le resultat est dans titi.txt.xml, créer
automatiquement le fichier titi.txt.xml.
#lire le
fichier titi.txt.xml et l'ecrire dans votre
fichier de sortie en cours
#
ouvrir titi.txt.xml
open(TOTO,"titi.txt.xml");
#
parcourir titi.txt.xml et ecrire chaque ligne dans
FILEOUT
while (my $ligne =
<TOTO>) {
#
integrer le resultat dans la fichier de sortie
general : FILEOUT
print
FILEOUT
$ligne if ($ligne !~ /xml/);
#print "appuie sur return
pour coninuer\n" ;
#$reponse
=<STDIN>;
}
close(TOTO);
Nous
avons inséré un code qui traite l'encodage des
caractères accentués
$temp=$1;
$temp=~s/&#39;/\'/g;
#
&#39; =
apostrophe
$temp=~s/&#34;/"/g;
#
&#34; = guillemets ouvrants
ou fermants.
$temp=~s/é/é/g;
# é =
é
$temp=~s/é/é/g;
$temp=~s/ê/ê/g; #
ê =
ê= accent
circonflexe
$temp=~s/ê/ê/g;
#ê ê=
accent circonflexe
$temp=~s/è/è/g;
$temp=~s/Ã/à/g;
$temp=~s/ç/ç/g;
$temp=~s/à§/ç/g;
$temp=~s/ô/ô/g;
En
lançant le script final bao2_treet1.pl, on obtient les fichiers de
sortie ; voir exemple
culture.xml
2. Cordial
Contrairement à
treetagger, Cordial n'effectue pas automatiquement le
traitement. bao2_cord.pl. Il faut donc appliquer Cordial
aux fichiers, un par un.
On
obtient le résultat suivant. ALAUNE_etiquete.txt
remonter