Technologies et médias

Présentation

Ce site est consacré au cours « Programmation et projet encadré - 2ème semestre - BAO - Plurital - 2008/2009 ». Nous y présentons toutes les évolutions de notre projet BAO.
Plusieurs étapes sont nécessaires pour obtenir des graphes de mots (BAO 4). Ces derniers sont générés à partir d'une liste de patrons syntaxiques (BAO 3).
Notre point de départ est un corpus composé d’un an de fils RSS du journal Le Monde au format xml. Ces flux ont été récupérés tous les jours à 19h
Dans un premier temps, nous filtrons et nous nettoyons des flux RSS (BAO 1). Ceci nous permet d'extraire des parties textuelles qui se trouvent dans la balise <description> du flux RSS des rubriques « Technologies et Médias ». Cette première étape est réalisée grâce au langage de programmation Perl couplé aux expressions régulières (REGEXP).
Nous étiquetons (BAO 2), ensuite, cette matière textuelle à l’aide d’outils spécifiques (Treetager, Cordial), afin d'extraire des patrons syntaxiques (NOM ADJ et NOM PREP NOM). Enfin, nous générons des représentations graphiques (BAO 4) à partir de ces listes de patrons syntaxiques.
Nous présentons, ci-dessous, un schéma qui décrit les étapes de ce projet :



techno



Les flux RSS


Les fils ou flux RSS se situent dans une arborescence qui commence par une racine : 2008. Nous avons ensuite les mois et les jours. Dans chaque dossier jour, nous avons un dossier 19-00-00 (19h) qui indique l'heure à laquelle le flux a été récupéré. Enfin, dans chaque dossier 19-00-00, nous trouvons tous les flux qui sont codés. Ces flux sont accessibles au format xml et txt.


haut de page



Les codes des rubriques


Voyons à présent le code de chaque rubrique :


Code = '0,2-3208,1-0,0.xml' = rubrique 'A la une'.

Code = '0,2-3476,1-0,0.xml' = rubrique 'Cinéma'.

Code = '0,2-3246,1-0,0.xml' = rubrique 'Culture'.

Code = '0,2-3234,1-0,0.xml' = rubrique 'Economie'.

Code = '0,2-3244,1-0,0.xml' = rubrique 'Environnement et Sciences'.

Code = '0,2-3214,1-0,0.xml' = rubrique 'Europe'.

Code = '0,2-3404,1-0,0.xml' = rubrique 'Examens'.

Code = '0,57-0,64-987718,0.xml' = rubrique 'Fil municipales et cantonales 2008'.

Code = '0,2-3210,1-0,0.xml' = rubrique 'International'.

Code = '0,2-3260,1-0,0.xml' = rubrique 'Livres'.

Code = '0,2-3236,1-0,0.xml' = rubrique 'Médias'.

Code = '0,2-3232,1-0,0.xml' = rubrique 'Opinion'.

Code = '0,57-0,64-823353,0.xml' = rubrique 'Politique'.

Code = '0,2-3238,1-0,0.xml' = rubrique 'Rendez vous'.

Code = '0,2-3224,1-0,0.xml' = rubrique 'Société'.

Code = '0,2-3242,1-0,0.xml' = rubrique 'Sports'.

Code = '0,2-651865,1-0,0.xml' = rubrique 'Technologies'.

Code = '0,2-3546,1-0,0.xml' = rubrique 'Voyages'.



haut de page