1.Extraire le contenu textuel des balises TITLE et DESCRIPTION:
Lors du parcours de l'arborescence, lorsqu'on trouve un fichier on lance un traitement qui permet d'extraire le contenu textuel des balises TITLE et DESCRIPTION en utilisant la structure conditionnelle suivante à l'intérieur de la boucle while.
2.Remplacer les entités Html par les caractères correspondants:
Pour effectuer, cette opération j'ai créé un tableau associatif qui a comme clé les entités Html et comme valeur les caractères correspondants.
Lors du parcours du fichier, je remplace dans chaque ligne du fichier le contenu de keys s'il existe dans la ligne par le contenu de values.
3.Supprimer les redondances:
Pour faire cette tâche, lors de l'ajout de chaque ligne à notre fichier de sortie, on vérifie s'il existe déjà.
S'il existe on fait next c'est à dire on passe à l'itération suivante sinon on l'ajoute à la variable DUMPFULL1 qui contient le contenu qu'on va ajouter au fichier de sortie.
4.Suppression des balises qui sont à l'intérieur des balises DESCRIPTION et TITLE:
Pour supprimer les balises, qui sont à l'intérieur des balises description et title, et leurs contenus, j'ai utilisé une simple instruction de remplacement:
5.Avoir une sortie pour chaque rubrique: une sortie XML pour la rubrique europe et une autre pour la rubrique international.
Pour effectuer cette opération, j'ai fait un tableau associatif qui presente le numéro identificateur de la rubrique et le nom de la rubrique:
Après en utilisant une boucle foreach que j'affecte le contenu à mes fichiers: Dans ce cas, j'ai été obligé de déclarer la variable DUMPFULL1 comme une variable locale qui sera initialisée à vide dans chaque début du parcours de fichier.
6.Associés au contenu de balise TITLE, les contenus des balises DESCRIPTION correspondant:
Il s'agit de faire un compteur lorsqu'on trouve une balise TITLE et on initialise un autre compteur à 0 pour compter le nombre de balise DESCRIPTION associées au TITLE correspondant.
Voir le script complet : Bao1.pl