Corpus
Constitution
Le corpus utilisé est composé à partir des fils RSS du journal Le Monde rassemblés par Serge Fleury entre novembre 2006 et mars 2008.
Les fils sont composés de deux types de données :
- Surface : c'est à dire le titre de l'article, souvent un très bref résumé
- Profondeur : c'est à dire le contenu de l'article lié par le fil
Nous avons regroupé les archives en concaténant le contenu des années 2006, 2007 et 2008 en un fichier par rubrique. Puis nous avons utilisé un script perl pour ne récupérer que la surface pour finir par faire passer un script de "nettoyage" qui a traité les codages de caractères spéciaux (en retransformant par exemple, é en 'é'.
Les fils sont composés de deux types de données :
- Surface : c'est à dire le titre de l'article, souvent un très bref résumé
- Profondeur : c'est à dire le contenu de l'article lié par le fil
Nous avons regroupé les archives en concaténant le contenu des années 2006, 2007 et 2008 en un fichier par rubrique. Puis nous avons utilisé un script perl pour ne récupérer que la surface pour finir par faire passer un script de "nettoyage" qui a traité les codages de caractères spéciaux (en retransformant par exemple, é en 'é'.
Répartition
Nous avons ensuite réparti les fichiers obtenus comme suit :
Wakako Ishibashi et Soizic Tharrault
- Cinéma
- Examens
- Municipales2007 [sic]
- Technologies
Ludivine Kuznik
- Environnement et Sciences
- Livres
- Rendez-Vous
- Voyages
Anne-Claire Minaux
- Culture
- France/Société
- Opinion
Quentin Peigné
- Economie
- International
- Politique
Karl Szymoniak
- A La Une
- Europe
- Médias
- Sports
Wakako Ishibashi et Soizic Tharrault
- Cinéma
- Examens
- Municipales2007 [sic]
- Technologies
Ludivine Kuznik
- Environnement et Sciences
- Livres
- Rendez-Vous
- Voyages
Anne-Claire Minaux
- Culture
- France/Société
- Opinion
Quentin Peigné
- Economie
- International
- Politique
Karl Szymoniak
- A La Une
- Europe
- Médias
- Sports
Haut de page