PRESENTATION DU PROJET
Ce projet consiste à extraire des données textuelles à partir d'un corpus de fils RSS. Le texte extrait sera par la suite étiqueté syntaxiquement pour obtenir des patrons syntaxiques qui seront visualisés sous forme graphique. Le corpus de travail sera constitué de l'ensemble des fils RSS disponibles sur le site du journal Le Monde, recueillis tous les jours de l'année 2010 à 19h.
EXPLICATION DES QUATRE ETAPES DU PROJET
1ère Etape:
Il s'agit d'écrire un script perl permettant de filtrer et de nettoyer le contenu des fichiers XML afin d'obtenir un texte brut qui servira ensuite pour la boîte à outils 2.
2ème Etape:
Le contenu du fichier de la boîte à outils 1 sera annoté par des étiquettes morpho-syntaxiques à l'aide d'outils comme Cordial ou TreeTagger.
3ème Etape:
Le résultat de la boîte à outils 2 permettra de faire une extraction terminologique en filtrant les patrons syntaxiques.
4ème Etape:
Le programme "patron2graphe.exe" sera employé afin d'obtenir des graphes de mots à partir des fichiers produits par la boîte à outils 3.
Définition du RSS
Le R.S.S. est l'acronyme de « Rich Site Summary » qui signifie en français "Sommaire Riche de Site web". Basé sur le langage XML, le R.S.S permet de réaliser des sommaires.
En effet, nous avons un fichier texte régulièrement mis à jour qui contient les derniers titres des articles mis en ligne par un site web. Les titres de ce fichier sont des liens permettant de renvoyer aux articles correspondants.
ORGANISATION DU RSS DANS LE MONDE
Les flux RSS des différentes rubriques du journal Le Monde ont été archivé, durant l'année 2010, chaque jour à 19h. L'arborescence du corpus est ainsi composée de plusieurs niveaux : Année/Mois/Jour/Heure.
Les fichiers RSS appartenant à une rubrique possèdent chacun un code qui lui est propre.
Le tableau ci-dessous donne la liste des rubriques disponibles dans le corpus:
Rubriques: | Fichiers RSS: |
---|---|
A la Une | 0,2-3208,1-0,0.xml |
International | 0,2-3210,1-0,0.xml |
Europe | 0,2-3214,1-0,0.xml |
Société | 0,2-3224,1-0,0.xml |
Economie | 0,2-3234,1-0,0.xml |
Médias | 0,2-3236,1-0,0.xml |
Rendez-vous | 0,2-3238,1-0,0.xml |
Sports | 0,2-3242,1-0,0.xml |
Planète | 0,2-3244,1-0,0.xml |
Culture | 0,2-3246,1-0,0.xml |
Technologies | 0,2-651865,1-0,0.xml |
Cinéma | 0,2-3476,1-0,0.xml |
Voyages | 0,2-3546,1-0,0.xml |
Livres | 0,2-3260,1-0,0.xml |
Examens | 2009 0,2-3404,1-0,0.xml |
Opinions | 0,2-3232,1-0,0.xml |
Politique | 0,57-0,64-823353,0.xml |
EQUIPE DE TRAVAIL
- DOUDANE Camille
1ère année Master Ingénierie Linguistique
Université Sorbonne Nouvelle (Paris III)
- OKININA Nadia
1ère année Master Ingénierie Linguistique
INALCO: Institut National des Langues et Civilisations Orientales
- TUBIANA Séverine
1ère année Master Ingénierie Linguistique
Université Sorbonne Nouvelle (Paris III)