NAVIGATIONS DANS 

        LES FILS DU MONDE

                                             

                                                                                                                                                                                                                                                                                                                           Accueil              Préparation               Etape 1              Etape 2             Analyse linguistique                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               

                                                                                         
                                   
                     Préparation


                   

Dans un premier temps nous avons construit notre corpus à partir des fils RRS du Monde de novembre 2006 à mars 2008.

Les fils comportent deux types de données :
Surface : le titre de l'article, souvent un très bref résumé
Profondeur :  le contenu de l'article lié par le fil.

Ensuite, nous avons assemblé les archives en concaténant le contenu par année 2006, 2007, 2008 en un fichier par rubrique. A l'aide d'un script perl, nous avons récupéré uniquement la profondeur. Pour finir, nous avons passé un script qui nettoie les codages des caractères spéciaux.

Nous  avons sélectionné une liste de 19 mots. Pour voir la liste cliquer ici.

Pour analyser les comportements de chacun de ces mots, nous avons utilisé Lexico 3 et le trameur

Nous  étions en charge de la rubrique politique et international.

Nous voulions au départ concaténer les  trois années mais le fichier obtenu était beaucoup trop lourd  pour pouvoir travailler avec Lexico 3 et le Trameur. Nous avons donc décidé de traîter les fichiers année par année.  Malgré  cela la rubrique international était encore trop lourde.

Nous nous sommes concentrés sur la rubrique politique. Pour voir les fichiers, cliquer  2006     2007    2008 

     
                                                                      remonter