extraction de texte
Cette
première étape se présente en 2
parties: l'extraction et le nettoyage des fils RSS.
1/
Extraction
Le programme écrit en PERL
a
pour particularité
de parcourir l'arborescence du répertoire des fils du Monde
en ne traitant que des fichiers, les répertoires successifs
(année, mois, jour) étant passés en
revue sans traitement.
Seuls les fichiers XML, reconnus par leur extension, sont retenus. On
ne s'interessera ici qu'aux contenus des balises
<description>.
Les rubriques sont reconnues par leur code:
- A
la une:
0,2-3208,1-0,0
- Société:
0,2-3224,1-0,0
2/
Nettoyage
Les textes extraits présentent quelques problèmes
de codage dus au entités HMTL (exemple:
&eacute). Ces dernières sont
remplacés par les
caractères auquels elles correspondent ('é').
Plusieurs zones textuelles, bien qu'elles soient comprises entre deux
balises <description>, ne nous intéressent pas
(exemple: Toute
l'actualité au moment de
la connexion). Ces zones ne seront
pas traitées.
On remarque aussi pour la rubrique Société, que
d'un jour à l'autre, le contenu des balises
<description> ne change pas. On décide donc de
ne pas faire apparaître ces doublons.
Scripts:
- A
la une
- Société
Résultats:
Les parties textuelles traitées sont
concataténées
dans un fichier texte pour chaque rubrique:
- A
la une
- Société