Le travail proposé par Serge Fleury s’appuie sur deux projets en cours (cf. synthèse du projet Navigations rédigée par Serge Fleury, pour davantage de précisions), dans lesquels s’inscrivent notre recherche.
Ce projet, débuté en octobre 2005, comporte deux modules :
A l’issue de ces modules, un corpus de fils RSS résultant d’un archivage heure par heure est à la disposition des étudiants impliqués dans le projet Navigations.
Une série d’outils appropriés au traitement de ces fils est actuellement en cours de développement
URL du projet : http://tal.univ-paris3.fr/filspresse/
L’ensemble des versions quotidiennes du journal Le Monde ont été régulièrement récupérées sur le site web du journal, aux formats HTML et PDF. C’est la version HTML qui a été utilisée afin d’en produire différents états:
Les états quotidiens des contenus textuels ont fait l’objet d’une concaténation, afin de produire des corpus chronologiques, en fonction de l’ensemble des dates de récupération. Le processus d’archivage couvre la période du 12 avril 2003 au 19 septembre 2006.
URL du projet: http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/veille.htm
Une version complémentaire des données disponibles en ligne sur le site du journal Le Monde est également mise à profit dans le cadre de ce projet, toujours à partir des fils RSS récupérables. Il s’agit du corpus Le Monde semi-Profond, constitué de l’ensemble des contenus textuels des fils RSS - correspondant donc au Monde en Surface -, additionné des versions intégrales de tous les articles qui leur sont associés.
La seconde phase de ce projet est une extension du précédent, faisant suite à l’interruption du Monde Profond le 19 septembre 2006.
URL du projet: http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/veille.htm
Cet aspect du projet recouvre les mêmes données que Le Monde Surface présenté dans la Phase 1.
La seconde phase de ce projet s’articule autour de l’archivage en parallèle des fils RSS et des articles complets associés aux items décrits dans les fils. Le processus mis en place pour la constitution de la version enrichie du corpus, i.e. le corpus Le Monde semi-Profond, a été optimisé afin de permettre l’archivage complet des articles associés aux fils, quelle que soit leur longueur. Cette phase d’optimisation a débuté le 20 novembre 2006.