Programmation et Projet Encadré

Navigation

Nous sommes:

Vous êtes ici: Accueil > Boite à Outils 1

Objectif de la BàO1

Extraction d’une arborescence de fils RSS des contenus textuels des balises <title> </title> et <description> </description> à l'aide de programme Perl.

Filtrage

Les contenus textuels sont filtrés dans les fichiers XML. Seul le texte brut est conservé.

(Script de filtrage)

#! /user/bin/perl
open(FILEINPUT,"$ARGV[0]");        # Ouverture en lecture
while ($ligne = <FILEINPUT>)       # Parcours du fichier associé au
# pointeur FILEINPUT chaque ligne est stoquée dans la variable $ligne
{
    if ($ligne=~/REGEXP/) # Vérification : si la ligne contient le motif
    {
        print $ligne;                        # si elle contient, on imprime
    }
}

Nettoyage

Une fois qu'il est filtré, il faut:
                       -Nettoyer quelques entités XML illisibles.
                       -Remplacement des caractères mal-codés
                       -Supprimer les balises du genre <a> </a>, <img> </img>, <p> </p> et de leurs contenus.

(Script de nettoyage)

#! /user/bin/perl
open(FILEINPUT,"$ARGV[0]");
while ($ligne = <FILEINPUT>)
{
$ligne=~s/RECHERCHE/REMPLACEMENT/g; # remplacement dans chaque ligne le motif RECHERCHE par REMPLACEMENT
print $ligne; # on imprime la ligne
}
close(FILEINPUT);