BAO2                      

                                                                                                                                                                                                                                                                                                                                        Accueil              BAO1             BAO2            BAO3             BAO4                                                                                                                                                                                                                           

                                                                                         


                      BAO2  
ETIQUETAGE

                                 

                               
                                   Nous allons ensuite étiqueter nos fichiers. Pour cela nous utilisons deux programmes,
                                   
Treetagger et Cordial.

                           
                            1. Treetagger

                                     On utilise Treetagger en ligne de commande.
                                     On appelle la commande tree-tagger.exe avec la fonction de Perl "système".
                                     Tree-tagger prend comme option -token -lemma -no-unknown
                                                                          paramètre french.par
                                                                          fichier d'entrée textein.txt
                                                                          fichier de sortie texteout.txt


   # étiqueter toto.txt avec treetagger
       system("perl ./treetagger-win32/cmd/tokenize.pl toto.txt |  treetagger-win32/        bin/tree-tagger.exe                                                          
       treetagger-win32/lib/french.par -token -lemma -sgml -no-unknown > titi.txt");
   # reformater le resultat de treetagger grâce au programme donné en cours treetager2xml.pl
       system("perl ./treetagger-win32/cmd/treetagger2xml.pl titi.txt");
  # le resultat est dans titi.txt.xml, créer automatiquement le fichier titi.txt.xml.
  #lire le fichier titi.txt.xml et l'ecrire dans votre fichier de sortie en cours
  # ouvrir titi.txt.xml

       open(TOTO,"titi.txt.xml");
  # parcourir titi.txt.xml et ecrire chaque ligne dans FILEOUT
       while (my $ligne = <TOTO>) {
  # integrer le resultat dans la fichier de sortie general : FILEOUT
       print FILEOUT $ligne if ($ligne !~ /xml/);
  #print "appuie sur return pour coninuer\n" ;
  #$reponse =<STDIN>;

                                       }
       close(TOTO);
             
                            Nous avons inséré un code qui traite l'encodage des caractères accentués


         $temp=$1;
           $temp=~s/&#38;#39;/\'/g; #  &#38;#39; = apostrophe
           $temp=~s/&#38;#34;/"/g; #  &#38;#34; = guillemets ouvrants ou fermants.
           $temp=~s/&#233;/é/g; #   &#233; = é
           $temp=~s/é/é/g;
           $temp=~s/&#234;/ê/g; #  &#234; = ê= accent circonflexe
           $temp=~s/ê/ê/g;  #ê ê= accent circonflexe
           $temp=~s/è/è/g;
           $temp=~s/Ã/à/g;
           $temp=~s/ç/ç/g;
           $temp=~s/à§/ç/g;
           $temp=~s/ô/ô/g;

 

                                     En lançant le script final
bao2_treet1.pl, on obtient les fichiers de sortie ; voir exemple culture.xml
                             
                       
                            2. Cordial

                                     Contrairement à treetagger, Cordial n'effectue pas automatiquement le
                                     traitement. bao2_cord.pl
. Il faut donc appliquer Cordial aux fichiers, un par un.
                              On obtient le résultat suivant.  ALAUNE_etiquete.txt

 


 remonter