Objectif de la BàO1
Extraction d’une arborescence de fils RSS des contenus textuels des balises <title> </title> et <description> </description> à l'aide de programme Perl.
Filtrage
Les contenus textuels sont filtrés dans les fichiers XML. Seul le texte brut est conservé.
(Script de filtrage)
#! /user/bin/perl open (FILEINPUT,"$ARGV[0]");# Ouverture en lecture
while ($ligne = <FILEINPUT>)# Parcours du fichier associé au
# pointeur FILEINPUT chaque ligne est stoquée dans la variable $ligne
{
if ($ligne =~/REGEXP/)# Vérification : si la ligne contient le motif
{
$ligne ;# si elle contient, on imprime
}
}
Nettoyage
Une fois qu'il est filtré, il faut:
-Nettoyer quelques entités XML illisibles.
-Remplacement des caractères mal-codés
-Supprimer les balises du genre <a> </a>, <img> </img>, <p> </p> et de leurs contenus.
(Script de nettoyage)
#! /user/bin/perl open (FILEINPUT,"$ARGV[0]");
while ($ligne = <FILEINPUT>)
{
$ligne =~s/RECHERCHE/REMPLACEMENT/g;# remplacement dans chaque ligne le motif RECHERCHE par REMPLACEMENT
$ligne ;# on imprime la ligne
}
close (FILEINPUT);
Programme de parcours de l'arborescence ici
Résultat
* Sortie de Cordial ici.