Sylvia Ombuya : Université Paris 3 Sorbonne Nouvelle. Mél : sombuya@yahoo.com
Présentation | Boîte à outil 1 | Boîte à outil 2 | Boîte à outil 3 | Boîte à outil 4 |
Ce projet s'inscrit dans le cadre d'un cours de master année 2007-2008. Le travail du projet consiste de la mise en place d'un ensemble d'outils informatiques dont le but est de constituer une chaîne de traitement automatique applicable à une arborescence de répertoires dans lesquels sont stockés des fils de presse RSS.
Les traitements sont fait à partir de 4 boîtes à outil chaqu'une avec une fonction diffèrentes :
Filtrage du contenu textuel des fils RSS à l'aide d'un script perl.
Etiquetage du texte à l'aide de Tree-tagger d'une part et de Cordial d'autre part.
Extraction de patrons syntaxiques à partir des fichiers de texte étiqueté, à l'aide de requêtes XPath d'une part et d'un script Perl d'autre part.
Transformation des fichiers de patrons en graphes de proximités lexicales avec Pajek (utilisation du format Graphml).
Un fichier RSS est un fichier XML qui respecte une structure particulière: c'est une application XML spécifique.
Les fils RSS sont des flux de contenus gratuits en provenance de sites internet. Ils donnent de l'information sur leur contenu et permettent d'en suivre l'évolution des mises à jour.
RSS est le sigle de Really Simple Syndication; la terminologie en français est ’syndication de contenus’ un procédé consistant à rendre disponible une partie du contenu d’un site web afin qu’elle soit utilisée par d’autres sites.
Les fichiers RSS utilisés dans ce projet sont des fichiers du site du journal Le Monde. Ces sont des fichiers d'un archivage réalisé automatiquement à heure fixe et contiennent les titres et les résumés des articles publiés.
La mise en ouvre de ce projet à pour but l'utilisation des programmes de traitement automatique de langue qui consiste de Perl un langage de programmation pour l'exploitation des données langagières, Xml un langage à balises extensible, Cordial un correctuer globale et analyseur de langue français, Treetagger un outil d'étiquetage et Pajek un outil pour la construction des graphes. Chaque outil à une fonction spécifique dans la réalisation du travail.
Schéma de la structure des étapes du projet :