Boîte à Outils 1

by Anna ANDRYCH & Marie SADOU

ETAPE 1 : script de filtrage et de nettoyage filtreur.pl


OBJECTIF : extraction du texte

Le premier script filtreur.pl écrit en PERL permet d'extraire des parties textuelles des fichiers XML (fils RSS). Il s'agit du texte compris entre les balises <description>.



 

 

PROBLEMES : encodage

Le principal problème de cette première étape a été celui de l'encodage des caractères diachritiques et des symboles spéciaux (', ", <, &, ...) rencontrés dans les fichiers XML. Ainsi, nous avons ajouté au script des commandes particulières en PERL de recherche-remplacement avec la syntaxe suivante :

$a=~s/< chaîne à rechercher >/< chaîne à remplacer >/< option >;

Nous avons donc fait usage d'expressions régulières afin de compléter cette commande.


ETAPE 2 : script filtreur2.pl


OBJECTIF : amélioration du script

Après avoir testé le script sur l'échantillon des flux RSS de Janvier 2008, nous l'avons fait tourner ensuite sur l'arborescence totale de l'année 2008. Nous nous sommes alors aperçues qu'il y avait quelques problèmes d'encodage. On a réussi à les résoudre toujours grâce à la commande de recherche-remplacement.

Par ailleurs, nous avons remarqué que certaines phrases apparaissaient de façon récurrente, telles que Toute l'actualité au moment de la connexion, Retrouvez l'ensemble des dépèches sur http://www.lemonde.fr, Lisez l'intégralité de l'article pour plus d'information. Nous les avons supprimées au moyen de la commande next if.


Voici le script modifié filtreur2.pl :