Présentation du projet


Ce site est le résultat d'un travail réalisé dans le cadre du cours « Programmation et Projet Encadré 2 » du MASTER-1 PLURITAL. Le projet consiste à élaborer une chaine de traitement automatique capable d'extraire le texte d'une arborescence RSS, de l'étiqueter, d'extraire des patrons syntaxiques particuliers pour, finalement, visualiser sous forme de graphes les attirances au sein de ces patrons.


Example pic

En gros, Nous allons, dans un premier temps, écrire un programme permettant de réaliser une extraction de texte à partir du corpus de fils RSS du journal Le Monde (2010).


Mais qu'est-ce que les fils RSS?

Il faut évidemment être averti à propos de la nature du corpus avant de prétendre l'exploiter automatiquement. Il s'agit d'un ensemble de fichiers XML organisés et structurés comme le montrent les deux suivants schémas:


Aperçu de l'organisation de notre arborescence de fils RSS:



Aperçu de la structure XML d'un fil RSS:



Quelles sont les étapes du projet Boite à Outils?

Le projet se déroulera en quatre étapes que l'on nommera Boîtes à Outils; de 1 à 4 et sa réalisation s'étalera sur tout le second semestre.

Boite à Outils 1:

-Extraction du texte par un script Perl qui s'appuie sur les expressions régulières.

-Extraction de texte par un script Perl via la bibliothèque XML::RSS.

Boite à Outils 2:

-Etiquetage morphosyntaxique intégré au script via TreeTagger.

-Etiquetage morphosyntaxique avec Cordial (interface graphique).

Boite à Outils 3:

-Extraction de patrons par un script Perl via la bibliothèque XML::RSS.

-Extraction de patrons par un script Perl sur les sorties Cordial.

-Extraction de patrons par une Feuille de style XSLT.

Boite à Outils 4:

-Représentation en graphes de quelques résultats.






Arezki SADOUNE, Leidiana Martins, Latéfa Faïz. 2010 - 2011
Nos vifs remerciements à nos enseignants, M.Fleury, M.Daube et M.Belmouhoub, sans l'aide desquels ce travail n'aurait pas été réalisable.