Présentation
Ce projet consiste à écrire un programme en Perl permettant, à partir d'un corpus de fils RSS, d'extraire des données textuelles, de les étiqueter syntaxiquement, d'en extraire des patrons syntaxiques qu'on visualise sous forme de graphes.Fils RSS
Les fils RSS sont des flux de contenus gratuits, produits automatiquement en fonction des mises à jour d'un site internet.Le terme RSS signifie que le contenu du fichier RSS (Appelés également Flux RSS, Canal RSS ou Fil RSS) est informatiquement codé selon le standard RSS (Really Simple Syndication), qui s'appuie lui-même sur le langage XML.
Basiquement, un fil RSS est un fichier contenant le titre de l'information, une courte description et un lien vers une page décrivant plus en détail l'information.
Les sites proposant un ou plusieurs fils d'actualités au format RSS arborent parfois un des logos suivants :
Composition d'un fil RSS :
<?xml version='1.0' encoding='UTF-8'?> #Déclaration de fichier XML.
<rss xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" version="2.0"> #Déclaration du fichier RSS et de sa version.
<channel> #Déclaration du canal d'information. Contient les métadonnées du fil RSS, obligatoires ou non, ainsi que la liste des contenus.
<title>Titre du fil</title>
<link>URL de la page internet correspondant au fil</link>
<description>Description succinte du fil</description>
<language>Optionnel : Langue du fil</language>
<pubDate>Optionnel : Date de publication du fil</pubDate>
<lastBuildDate>Optionnel : Dernière date de modification du fil</lastBuildDate>
<image>Optionnel Insère une image dans le fil</image>
<item> #Contient les données correspondantes à l'actualité n°1.
<title>Titre de l'actualité</title>
<link>URL de la page internet correspondant à l'actualité</link>
<description>Description succincte de l'actualité</description>
<pubDate>Date de l'actualité</pubDate>
...
</item>
<item>...</item> Contenu de l'actualité n°2
<item>...</item> Contenu de l'actualité n°3
...
<item>...</item> Contenu de la dernière actualité
</channel>
</rss> #Fin de fichier.
Corpus
Le corpus utilisé est composé des fils RSS de 2009 du journal Le Monde : Chaque jour à 19h, les flux RSS des différentes rubriques du journal ont été archivé.L'arborescence du corpus est composée de plusieurs niveaux : Année/Mois/Jour/Heure.
Arborescence du corpus :
Rubriques
Chaque rubrique RSS proposée par le site Le Monde possède un code qui lui est propre. Les fichiers RSS appartenant à une rubrique ont pour nom le code de celle-ci.Voici la liste des rubriques disponibles dans le corpus :
Rubriques | Fichiers RSS |
---|---|
A la Une | 0,2-3208,1-0,0.xml |
International | 0,2-3210,1-0,0.xml |
Europe | 0,2-3214,1-0,0.xml |
Société | 0,2-3224,1-0,0.xml |
Economie | 0,2-3234,1-0,0.xml |
Médias | 0,2-3236,1-0,0.xml |
Rendez-vous | 0,2-3238,1-0,0.xml |
Sports | 0,2-3242,1-0,0.xml |
Planète | 0,2-3244,1-0,0.xml |
Culture | 0,2-3246,1-0,0.xml |
Technologies | 0,2-651865,1-0,0.xml |
Cinéma | 0,2-3476,1-0,0.xml |
Voyages | 0,2-3546,1-0,0.xml |
Livres | 0,2-3260,1-0,0.xml |
Examens 2009 | 0,2-3404,1-0,0.xml |
Opinions | 0,2-3232,1-0,0.xml |
Politique | 0,57-0,64-823353,0.xml |
On a choisi d'utiliser la rubrique "International" (Code : 0,2-3210,1-0,0.xml) car c'est l'une des rubriques les plus fournies en quantité d'information.
Extrait d'un fil RSS de la rubrique "International" :
Étapes
Qui sommes-nous ?
• Marie Garrigue1ère année Master Ingénierie Linguistique
Université Sorbonne Nouvelle (Paris III)
• Sandy Bonin
1ère année Master Ingénierie Linguistique
Université Paris Ouest La Défense (Paris X)