Boîte à Outils 1
On crée un script Perl qui parcours l'arborescence du dossier à la recherche des fichiers XML qui correspondent à la rubrique qu'on a choisi.Puis on filtre, grâce au module XML::RSS, le contenu des fichiers afin de récupérer le contenu textuel des balises title et description.
Pour finir, les contenus textuels sont nettoyés de leurs entités HTML (Grâce au module HTML::Entities), des doublons et des balises d'images, de liens,...
Schéma :
On a choisi d'utiliser un module pour le filtrage car il donne de meilleurs résultats par rapport à l'utilisation d'expressions régulières. Par contre, il présente l'inconvénient que si un fichier est malformé ou présente des signes non autorisés, le traitement est rejeté.
Dans cette étape plusieurs problèmes se posent :
- Certains caractères sont codés sous la forme d'entités HTML (Exemples : & pour le caractère &, ' pour l'apostrophe,...) : On les a décodés grâce au module HTML::Entities. On a préféré utiliser un module plutôt que la commande de recherche/remplacement de Perl, car cela permet d'éviter d'oublier de remplacer certaines entités HTML.
- Certains articles sont présents plusieurs fois : On les a donc supprimés.
- Certaines balises HTML (Images, liens,...) sont présentes : On les supprime aussi.
- On normalise le tout : On remplace le caractère & par la chaîne de caractères " and ", s'il y a plusieurs espaces à la suite on les remplace par un seul, on fait en sorte que le contenu de title et de description se termine par une ponctuation.
- Certaines phrases apparaissent de façon récurrente : On les supprime aussi.
Script
Commande :Résultats
• Fichier resultat_bao1.txt [Voir] 1,1 MB
• Fichier resultat_bao1.xml [Voir] 1,5 MB