Boîte à outils
Présentation
(Serge Fleury, Rachid Belmouhoub, Jean-Michel Daube)
L'objectif de la série Boîte à outils, qui se divise en quatre modules, est la mise en place d'un ensemble d'outils informatiques dont le but est de constituer une chaîne de traitement automatique applicable à une arborescence de répertoires dans lesquels sont stockés des fils de presse RSS.
Un fichier RSS est un fichier XML qui respecte une structure particulière: c'est une application XML spécifique.
Le standard RSS représente un moyen simple d'être tenu informé des nouveaux contenus d'un site web, sans avoir à le consulter.
Le format« RSS » (« Really Simple Syndication ») permet ainsi de décrire de façon synthétique le contenu d'un site web, dans un fichier au format XML, afin de permettre son exploitation par des tiers. Le fichier RSS, appelé également flux RSS, canal RSS ou fil RSS, contenant les informations à diffuser, est maintenu à jour afin de constamment contenir les dernières informations à publier.
Les enjeux principaux de ce travail relèvent notamment de l’application de logiciels, tels que Cordial, Treetagger ou encore Pajek, mais également de la mise à profit des cours de XML ainsi que l'utilisation du langage Perl.
Mise en oeuvre
Boîte à
outils 1
Extraction du contenu textuel des fils RSS à l'aide d'un script perl.
Boîte à outils 2
Etiquetage du texte à l'aide de Tree-tagger d'une part et de Cordial d'autre part.
Boîte à outils 3
Extraction de patrons syntaxiques à partir des fichiers de texte étiqueté, à l'aide de requêtes XPath d'une part et d'un script Perl d'autre part.
Boîte à outils 4
Transformation des fichiers de patrons en graphes de proximités lexicales avec Pajek (utilisation du format Graphml).
Voir le parcours en image
Extraction du contenu textuel des fils RSS à l'aide d'un script perl.
Boîte à outils 2
Etiquetage du texte à l'aide de Tree-tagger d'une part et de Cordial d'autre part.
Boîte à outils 3
Extraction de patrons syntaxiques à partir des fichiers de texte étiqueté, à l'aide de requêtes XPath d'une part et d'un script Perl d'autre part.
Boîte à outils 4
Transformation des fichiers de patrons en graphes de proximités lexicales avec Pajek (utilisation du format Graphml).
Voir le parcours en image