Boîte à outils 1
Présentation
Le corpus de travail comporte des couples de fichiers aux formats
XML et
TXT.
L'entrée de la BàO 1 est constituée
par l'ensemble des fichiers
XML
contenus dans l'arborescence de fils.
Ces fichiers
XML sont
des fils RSS en provenance du site du journal
Le Monde.
Ils
résultent d'un archivage réalisé
automatiquement à heure fixe et contiennent les titres et
les résumés des articles publiés.
Notre corpus est constitué des fils RSS de novembre et
décembre 2006.
Filtrage
Il s'agit de filtrer, dans les
fichiers XML
de l'arborescence, les contenus textuels des balises
<title></title>
et
<description></description>
de chaque item (article), à l'aide d'un
script
Perl; on a par ailleurs choisi de restructurer la sortie au format XML.
La petite ambiguité tient au fait que les
éléments
<channel></channel>
et
<item></item>
contiennent tous deux des balises
<title></title>
et
<description></description>
: comment la résoudre?
Voici deux solutions possibles pour traiter ces balises et leurs
contenus :
- la solution de Marianna : utiliser une balise différente
pour les titres et descriptions respectifs des channels et des items!
le
script
et la
sortie XML;
- la solution de Marguerite : utiliser des compteurs pour distinguer
titres et descriptions respectifs des channels et des items ! le
script
et la
sortie
XML.
Nettoyage
Pour éliminer les petits déchets de
l'étape de filtrage, un petit
nettoyage
est utile! Il suffit
d'assainir les contenus textuels en remplaçant les
entités
XML
qui font désordre. (le programme de Marianna le contient
déjà en procédure; nous le
présentons aussi isolément).
Ce petit plus sera systématiquement mis en
procédure au programme de filtrage
dès la Boîte à outils suivante.