Le but de ce travail est de parcourir un ensemble de fichiers
classés dans un répertoire. Ce
répertoire étant un ensemble de dossiers
constitués de fichiers structurés, plus
précisément des fils rss extraits d'articles
parus sur le site du journal le monde.fr, on va essayer d'automatiser
le parcours de ces fichiers dans ce répertoire. Pour ce
faire, nous disposons d'un langage de script perl, de deux outils de
traitement du langage naturel, Tree Tagger et Cordial.
B-MISE EN OEUVRE
La mise en oeuvre de ce travail se fait par étape: Débalisage
On commence par extraire le contenu des balises qui nous
interressent <description> grâce à un programme
perl : nettoyeur.On obtient un texte débalisé.
Segmentation et Etiquettage
Il a fallu ensuite étiquetter les différentes occurences (mots) contenues dans
notre nouveau corpus dépouillé de balises. Pour ce faire il était nécessaire de
tokeniser notre corpus, c'est à dire lui attribuer une occurence par ligne à
l'aide du programme perl nommé: segmenteur.pl. Nous
avons obtenu ceciqui ensuite a été taggé (ou
étiquetté) par Tree Tagger grâce à cette commande ./bin/tree-tagger.exe
-token -lemma -no-unknown ./lib/french.par $textesegmente outtagger.txt
lancée dans un terminal, on obtient finalement ce texte
étiquetté.
Automatisation des tâches
On automatise la tâche pour le parcours de notre
répertoire (arbre), recueillant ainsi l'ensemble du contenu de
toutes les balises <description > du répertoire. Ce
travail est réalisé à l'aide de ce programme perl, et nous obtenons un document texte comme celui-çi.
il s'agissait alors de modifier le script proposé en cours pour obtenir cette
version: parcours-arborescence-fichiers.pl,
puis dans un terminal lancer la commande:perl
parcours-arborescence-fichiers.pl ./arbre il en résulte un document
xml: SORTIE.xml qui contient les noms des différents
fichiers du dossier arbre et les contenus de ces dossiers.
C-RESULTATS
Transformation
Les résultats sont présentés sous forme de
documents xml et mis en forme grâce à un fichier xsl. Il s'agit du même document etiquetté
par cordial et par tree tagger en format xml.
Cordial: Scordial.xml, doc2.xsl
Tree Tagger: Sttagger.xml, doc2.xsl Conclusion
Ce travail nous a permi de prendre conscience des problèmes qui
surviennent lors de la manipulation des chaines de caractères.
codage d'un fichier source au fichier de sortie en passant par le
terminal et les outils où sont exécutés nos
programmes
passage de mac à pc, de windows à linux, changement de navigateur (Internet
Explorer, Firefox...), etc.
comprendre un document structuré en utilsant un programme qui le parcours et qui en génère un nouveau
découvrir, manipuler, et voir les différences entre Tree Tagger (etiquetteur)
et Cordial (etiquetteur, analyseur), etc.
gestion des séparateurs dans un texte: le caractère
"." nous a posé des problèmes les chiffres tels que
25.000 était considéré comme étant 25
à part et 000 d'autre part pour ne citer que ceux là.