BOITE À OUTILS
PARFAITE GAGOUM TCHAMGOUE


A-PRESENTATION

Le but de ce travail est de parcourir un ensemble de fichiers classés dans un répertoire. Ce répertoire étant un ensemble de dossiers constitués de fichiers structurés, plus précisément des fils rss extraits d'articles parus sur le site du journal le monde.fr, on va essayer d'automatiser le parcours de ces fichiers dans ce répertoire. Pour ce faire, nous disposons d'un langage de script perl, de deux outils de traitement du langage naturel, Tree Tagger et Cordial.

B-MISE EN OEUVRE

La mise en oeuvre de ce travail se fait par étape:
Débalisage
On commence par extraire le contenu des balises qui nous interressent <description> grâce à un programme perl : nettoyeur. On obtient un texte débalisé.
Segmentation et Etiquettage

Il a fallu ensuite étiquetter les différentes occurences (mots) contenues dans notre nouveau corpus dépouillé de balises. Pour ce faire il était nécessaire de tokeniser notre corpus, c'est à dire lui attribuer une occurence par ligne à l'aide du programme perl nommé: segmenteur.pl. Nous avons obtenu ceci qui ensuite a été taggé (ou étiquetté) par Tree Tagger grâce à cette commande ./bin/tree-tagger.exe -token -lemma -no-unknown ./lib/french.par $textesegmente outtagger.txt lancée dans un terminal, on obtient finalement ce texte étiquetté.

Automatisation des tâches
On automatise la tâche pour le parcours de notre répertoire (arbre), recueillant ainsi l'ensemble du contenu de toutes les balises <description > du répertoire. Ce travail est réalisé à l'aide de ce programme perl, et nous obtenons un document texte comme celui-çi.
il s'agissait alors de modifier le script proposé en cours pour obtenir cette version: parcours-arborescence-fichiers.pl, puis dans un terminal lancer la commande:perl parcours-arborescence-fichiers.pl ./arbre il en résulte un document xml: SORTIE.xml qui contient les noms des différents fichiers du dossier arbre et les contenus de ces dossiers.

C-RESULTATS

Transformation
Les résultats sont présentés sous forme de documents xml et mis en forme grâce à un fichier xsl. Il s'agit du même document etiquetté par cordial et par tree tagger en format xml.
Cordial: Scordial.xml, doc2.xsl
Tree Tagger: Sttagger.xml, doc2.xsl
Conclusion
Ce travail nous a permi de prendre conscience des problèmes qui surviennent lors de la manipulation des chaines de caractères.
  1. codage d'un fichier source au fichier de sortie en passant par le terminal et les outils où sont exécutés nos programmes
  2. passage de mac à pc, de windows à linux, changement de navigateur (Internet Explorer, Firefox...), etc.
  3. comprendre un document structuré en utilsant un programme qui le parcours et qui en génère un nouveau
  4. découvrir, manipuler, et voir les différences entre Tree Tagger (etiquetteur) et Cordial (etiquetteur, analyseur), etc.
  5. gestion des séparateurs dans un texte: le caractère "." nous a posé des problèmes les chiffres tels que 25.000 était considéré comme étant 25 à part et 000 d'autre part pour ne citer que ceux là.