NAVIGATIONS DANS
LES FILS DU MONDE
Accueil Préparation Etape 1 Etape 2 Analyse linguistique
Dans un premier temps nous avons construit notre corpus à partir des fils RRS du Monde de novembre 2006 à mars 2008.
Les fils comportent deux types de
données :
Surface :
le titre de l'article, souvent un très bref
résumé
Profondeur :
le contenu de l'article lié par le fil.
Ensuite, nous avons assemblé les archives en concaténant le contenu par année 2006, 2007, 2008 en un fichier par rubrique. A l'aide d'un script perl, nous avons récupéré uniquement la profondeur. Pour finir, nous avons passé un script qui nettoie les codages des caractères spéciaux.
Nous avons sélectionné une liste de 19 mots. Pour voir la liste cliquer ici.
Pour analyser les comportements de chacun de ces mots, nous avons utilisé Lexico 3 et le trameur.
Nous étions en charge de la rubrique politique et international.
Nous voulions au départ concaténer les trois années mais le fichier obtenu était beaucoup trop lourd pour pouvoir travailler avec Lexico 3 et le Trameur. Nous avons donc décidé de traîter les fichiers année par année. Malgré cela la rubrique international était encore trop lourde.
Nous nous sommes concentrés sur la rubrique politique. Pour voir les fichiers, cliquer 2006 2007 2008