Le travail proposé par Serge Fleury s’appuie sur deux projets en cours (cf. synthèse du projet Navigations rédigée par Serge Fleury, pour davantage de précisions), dans lesquels s’inscrivent notre recherche.

Phase 1: première récolte

Le Monde en surface

Ce projet, débuté en octobre 2005, comporte deux modules :

  1. Le premier module, Fil(s) de presse, permet, d’une part, de traiter un fil de presse donné, au format RSS; d’autre part, de construire des traitements sur le contenu de ce fil.
  2. Le second module, Archivage des Fils de Presse, permet un archivage automatique et continu des fils.

A l’issue de ces modules, un corpus de fils RSS résultant d’un archivage heure par heure est à la disposition des étudiants impliqués dans le projet Navigations.
Une série d’outils appropriés au traitement de ces fils est actuellement en cours de développement

URL du projet : http://tal.univ-paris3.fr/filspresse/

Le Monde profond

L’ensemble des versions quotidiennes du journal Le Monde ont été régulièrement récupérées sur le site web du journal, aux formats HTML et PDF. C’est la version HTML qui a été utilisée afin d’en produire différents états:

  1. un état quotidien des contenus textuels, normalisés au format XML, ainsi qu’une version compatible avec Lexico3;
  2. des états statistiques quotidiens.

Les états quotidiens des contenus textuels ont fait l’objet d’une concaténation, afin de produire des corpus chronologiques, en fonction de l’ensemble des dates de récupération. Le processus d’archivage couvre la période du 12 avril 2003 au 19 septembre 2006.

URL du projet: http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/veille.htm

Une version complémentaire des données disponibles en ligne sur le site du journal Le Monde est également mise à profit dans le cadre de ce projet, toujours à partir des fils RSS récupérables. Il s’agit du corpus Le Monde semi-Profond, constitué de l’ensemble des contenus textuels des fils RSS - correspondant donc au Monde en Surface -, additionné des versions intégrales de tous les articles qui leur sont associés.

remonter

Phase 2: seconde récolte

La seconde phase de ce projet est une extension du précédent, faisant suite à l’interruption du Monde Profond le 19 septembre 2006.
URL du projet: http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/veille.htm

Le Monde en surface

Cet aspect du projet recouvre les mêmes données que Le Monde Surface présenté dans la Phase 1.

Le Monde profond

La seconde phase de ce projet s’articule autour de l’archivage en parallèle des fils RSS et des articles complets associés aux items décrits dans les fils. Le processus mis en place pour la constitution de la version enrichie du corpus, i.e. le corpus Le Monde semi-Profond, a été optimisé afin de permettre l’archivage complet des articles associés aux fils, quelle que soit leur longueur. Cette phase d’optimisation a débuté le 20 novembre 2006.

remonter