accueil | bào1 | bào2 | bào3 | bào4 | bào + le_trameur
Objectif : extraire d'une arborescence de fils RSS les contenus textuels des balises "titre" et "description".
Les fils RSS nous ont été fournis dans deux formats différents : XML et texte (Lexico3). Comme seuls les fichiers XML nous intéresse, j'ai tout d'abord supprimé les fichiers inutiles. Une fois dans le répertoire <Jan> :
$ rm ./*/*/*.txt
Pour récupérer le contenu des balises "title" et "description" j'ai préferé une évaluation XPath :
//item/description/preceding-sibling::title[1] | //item/title/following-sibling::description[1]
A noter qu'avant d'écrire mon programme j'ai pu tester cette évaluation avec des outils XML comme Cooktop ou XML Copy Editor.
Enfin, au fil du projet, j'ai apporté diverses modifications au programme afin d'améliorer la qualité du résultat :
Fichiers : bao1.pl
Pour accéder à l'ensemble des fichiers produits : cliquer ici.
Cooktop : http://www.xmlcooktop.com/
XML Copy Editor : http://xml-copy-editor.sourceforge.net/