Projet des Boîtes à Outils (BàO)
Ce site présente une chaîne de traitement, capable de réaliser à partir de flux RSS des graphes de mots. Il a été réalisé dans le cadre du cours de « Projet encadré et Programmation 2 » du master 1 pluriTAL.
L’objectif de ce projet est d’extraire des informations correspondant à des patrons syntaxiques particuliers. Pour cela, nous avons utilisé les fils RSS du journal Le Monde des années 2009 et 2010.
Flux RSS
Les
fils RSS sont des flux de contenus gratuits,
produits automatiquement en fonction des mises à jour d'un site
internet.
Le
terme RSS signifie que le contenu du fichier RSS
est informatiquement codé selon le standard RSS (Really Simple
Syndication),
qui s'appuie lui-même sur le langage XML.
Basiquement,
un fil RSS est un fichier contenant le
titre de l'information, une courte description et un lien vers une page
décrivant plus en détail l'information.
Organisation des fils RSS du Monde
Le corpus utilisé est composé des fils RSS des années 2009 et 2010 du journal Le Monde : chaque jour à 19h, les flux RSS des différentes rubriques du journal ont été archivés. L'arborescence présente une structuration du type année/mois/jour/heure/filRSS. Chacun de ces fils RSS est accompagné de sa version "textuelle" au format Lexico3.
Chaque rubrique RSS proposée par le site Le Monde possède un code qui lui est propre. Les fichiers RSS appartenant à une rubrique ont pour nom le code de celle-ci.
Démarche à suivre
Pour
passer des flux RSS aux graphes, nous avons réalisé quatre étapes
successives
que nous allons décrire dans cet organigramme.
Remerciements
Nous tenons à remercier nos professeurs, Messieurs Serge Fleury, Jean-Michel Daube et Rachid Belmouhoub pour leur aide, et surtout pour avoir pris le temps de répondre à nos nombreuses questions.
Nous
remercions également les anciens élèves, car leurs
sites nous ont beaucoup éclairées.
Contact
lydia.bascarane@gmail.com mariedubremetz@gmail.com