boîte à outils

accueil | bào1 | bào2 | bào3 | bào4 | bào + le_trameur

Boîte à outils n°1

Objectif : extraire d'une arborescence de fils RSS les contenus textuels des balises "titre" et "description".

Ressources

Une arborescence de fils RSS
parcours-arborescence-fichiers.pl : programme permettant de parcourir une arborescence

Réalisation

Les fils RSS nous ont été fournis dans deux formats différents : XML et texte (Lexico3). Comme seuls les fichiers XML nous intéresse, j'ai tout d'abord supprimé les fichiers inutiles. Une fois dans le répertoire <Jan> :

$ rm ./*/*/*.txt

Pour récupérer le contenu des balises "title" et "description" j'ai préferé une évaluation XPath :

//item/description/preceding-sibling::title[1] | //item/title/following-sibling::description[1]

A noter qu'avant d'écrire mon programme j'ai pu tester cette évaluation avec des outils XML comme Cooktop ou XML Copy Editor.

Enfin, au fil du projet, j'ai apporté diverses modifications au programme afin d'améliorer la qualité du résultat :

tri numérique du contenu des dossiers afin d'avoir les fils dans le bon ordre
remplacement des entités html par les caractères correspondants.
suppression des balises <a> <p> <img> et de leurs contenus
suppression des doublons au sein d'un même fichier XML en entrée

Fichiers : bao1.pl

Résultat

Pour accéder à l'ensemble des fichiers produits : cliquer ici.

Liens

Cooktop : http://www.xmlcooktop.com/
XML Copy Editor : http://xml-copy-editor.sourceforge.net/

retour en haut