Navigation


Objectif de la BàO1

Extraction d’une arborescence de fils RSS des contenus textuels des balises  <title> </title>  et <description> </description> à l'aide de programme Perl.


Filtrage

Les contenus textuels sont filtrés dans les fichiers XML. Seul le texte brut est conservé.

(Script de filtrage)


#! /user/bin/perl
open(FILEINPUT,"$ARGV[0]");        # Ouverture en lecture
while ($ligne = <FILEINPUT>)       # Parcours du fichier associé au
#
pointeur FILEINPUT chaque ligne est stoquée dans la variable $ligne

{
    if ($ligne=~/REGEXP/) # Vérification : si la ligne contient le motif
    {
        print $ligne;                        # si elle contient, on imprime
    }
}


Nettoyage

Une fois qu'il est filtré, il faut:
                       -Nettoyer quelques entités XML illisibles.
                       -Remplacement des caractères mal-codés
                       -Supprimer les balises du genre <a> </a>, <img> </img>, <p> </p> et de leurs contenus.

(Script de nettoyage)


#! /user/bin/perl
open(FILEINPUT,"$ARGV[0]");
while ($ligne = <FILEINPUT>)
{
      $ligne=~s/RECHERCHE/REMPLACEMENT/g; # remplacement dans chaque ligne le motif RECHERCHE par REMPLACEMENT
        print $ligne; # on imprime la ligne
}
close(FILEINPUT);

Programme de parcours de l'arborescence ici

Résultat


* Sortie de Cordial ici.