Présentation:

La première boîte à outils a pour objectif de parcourir une arborescence de fichiers et applique un traitement sur chacun des fichiers rencontrés au moment du parcours afin d'extraire le contenu textuel des balises description et title pour deux rubriques qu'on a choisi arbitrairement.


Le corpus de notre travail se résume à 17 fils RSS du journal le monde qui ont été archivés une fois par jour sur toute l'année 2008.



fils RSS de journal le monde

Un fils RSS est un fichier XML en répondants à quelques simples conditions au niveau de la structure.

Ces fichiers sont classé par date (année, mois, jour) d'une manière arborescente et chaque fichier représente une rubrique qui est identifié par un numéro unique.


L'extraction de texte se fait en se basant sur une fonction récursive qui nous permet de parcourir l'arborescence en appliquant un filtreur et un nettoyeur.

En parcourant chaque fichier le filtreur extrait le contenu textuel des balises description et titre. De même lors du parcours, le nettoyeur supprime toutes les balises et assure l'affichage des caractères spéciaux HTML, afin de sauvegarder le résultat de ces traitements dans un fichier XML qui sera la sortie de notre Boite à outil 1.


  BAO 1

Télécharger le script + Les sorties de BAO1

  BAO 2

Télécharger le script + Les sorties de BAO2

  BAO 3

Télécharger le script + Les sorties de BAO3