Sylvia Ombuya : Université Paris 3 Sorbonne Nouvelle. Mél : sombuya@yahoo.com

Présentation Boîte à outil 1 Boîte à outil 2 Boîte à outil 3 Boîte à outil 4

Objectif du Projet


Ce projet s'inscrit dans le cadre d'un cours de master année 2007-2008. Le travail du projet consiste de la mise en place d'un ensemble d'outils informatiques dont le but est de constituer une chaîne de traitement automatique applicable à une arborescence de répertoires dans lesquels sont stockés des fils de presse RSS.

Les traitements sont fait à partir de 4 boîtes à outil chaqu'une avec une fonction diffèrentes :

Les fichiers RSS

Un fichier RSS est un fichier XML qui respecte une structure particulière: c'est une application XML spécifique.

Les fils RSS sont des flux de contenus gratuits en provenance de sites internet. Ils donnent de l'information sur leur contenu et permettent d'en suivre l'évolution des mises à jour.

RSS est le sigle de Really Simple Syndication; la terminologie en français est ’syndication de contenus’ un procédé consistant à rendre disponible une partie du contenu d’un site web afin qu’elle soit utilisée par d’autres sites.

Les fichiers RSS utilisés dans ce projet sont des fichiers du site du journal Le Monde. Ces sont des fichiers d'un archivage réalisé automatiquement à heure fixe et contiennent les titres et les résumés des articles publiés.

Outils de traitement

La mise en ouvre de ce projet à pour but l'utilisation des programmes de traitement automatique de langue qui consiste de Perl un langage de programmation pour l'exploitation des données langagières, Xml un langage à balises extensible, Cordial un correctuer globale et analyseur de langue français, Treetagger un outil d'étiquetage et Pajek un outil pour la construction des graphes. Chaque outil à une fonction spécifique dans la réalisation du travail.

Schéma de la structure des étapes du projet :

schma de la stucture des tapes du projet