Automatisation du filtrage sur l'arbre de fils RSS
Le corpus de travail presente au départ un ensemble de fichier xml et txt datant de janvier 2008.
(
voir la présentation du corpus)
Le Filtrage
Nous avons écrit un programme en PERL grâce auquel l'arborescence de fichiers est parcourue et chacun des fichiers rencontrés
et traité. Les contenus textuels sont alors filtrés de toutes les balises contenues dans les fichiers xml. Seul le texte brut est conservé.
Avant de lancer le script nous avons préalablement créé un dossier (xml) dans lequel seront stockés les resultats.
Il se trouve au même endroit que le dossier (2008) contenant les fichiers RSS et le programme en Perl (
bao1.pl).
Le programme est appelé selon la syntaxe suivante
perl bao1.pl 2008
Les resultats obtenus sont des fichiers xml ne contenant qu'une balise "filtrage" que nous avons inserée en début et
en fin de fichier afin d'assurer la bonne formation du document xml. Exemple de résultat du fichier "A_la_Une"
ici
Le Nettoyage
Après avoir filtrer notre corpus, il nous faut "nettoyer" les quelques entités xml illisibles.
Pour cela nous avons créé une procédure supplémentaire dans le même programme qui pourra les nettoyer.
sub net_entites{
$ligne=~s/'/\'/g;
$ligne=~s/"/\"/g;
$ligne=~s/é/é/g;
$ligne=~s/ê/è/g;
$ligne=~s/ê/ê/g;
$ligne=~s/ //g;
return $ligne;
}
Il s'agit de remplacer les entités par les bons caractères.