Présentation du corpus
Les corpus ont été récoltés à partir du site web du journal Le Monde via des fils RSS, du 1er janvier au 31 décembre 2008.
Ces fils donnent accès à deux niveaux textuels différents :
- surface : comportant le titre de l'article et son résumé
- profondeur : comportant le contenu de la totalité de l'article
Notre travail se limite à l'étude de la partie profondeur - rubrique Politique.
Le corpus a été récupéré en format textuel et préalablement nettoyé par M. Serge Fleury.