Boîte à outils





Constitution du Corpus


Le corpus rassemble le contenu des fils RSS du journal Le Monde pour deux années, 2009 et 2010. Ces fils ont été recueillis chaque jour à 19h.

Le terme de RSS fait référence au codage spécifique du standard RSS qui s'appuie lui-même sur le méta-langage XML.

Nous avons commencé notre travail par la réalisation de différents tests sur une petite partie du corpus (l'année 2008) pour ainsi prévoir les éventuelles sources de problèmes et anticiper les difficultés dans l'écriture du script principal. Finalement, on a abordé le traitement des années 2009-2010.


Voici un apérçu de l'arborescence des fils RSS en format brut avant tout traitement:

Tag


Premier pas


On a commencé le traitement textuel avec un script minimal intitulé extracteur-txt-dans-filRSS.pl dont le rôle était d'une part l'extraction du contenu des balises (title) et (description), et d'autre part, le nettoyage du texte, consistant en:

Mais nous avons eu d'autres contraintes, parmi lesquelles, résoudre les possibles problèmes d'encodage. En effet, il fallait obtenir à partir du script des sorties dans un seul encodage: "utf-8". Pour ce faire nous avons dû intégrer une ligne au script spécifiant d'encoder tout fichier en utf-8. Mais aussi, il a fallu mettre le texte d'output sur une seule ligne et obtenir dans les sorties la date de publication de chaque article traité.


Une fois ceci fait, il fallait obtenir deux sorties, une au format texte brut et l'autre au format xml.


Le script utilisé pour cette partie est disponible ici.


Deuxième pas


Cette étape a consisté à enrichir le script initial, afin de raffiner les outputs. Nous avons donc introduit plusieurs éléments, comme suit:


Le script amelioré peut être récupéré en cliquant ici.


Les sorties de cette partie sont disponibles aussi.