Ce site est le résultat d'un travail réalisé dans le cadre du cours « Programmation et Projet Encadré 2 » du MASTER-1 PLURITAL. Le projet consiste à élaborer une chaine de traitement automatique capable d'extraire le texte d'une arborescence RSS, de l'étiqueter, d'extraire des patrons syntaxiques particuliers pour, finalement, visualiser sous forme de graphes les attirances au sein de ces patrons.
En gros, Nous allons, dans un premier temps, écrire un programme permettant de réaliser une extraction de texte à partir du corpus de fils RSS du journal Le Monde (2010).
Il faut évidemment être averti à propos de la nature du corpus avant de prétendre l'exploiter automatiquement. Il s'agit d'un ensemble de fichiers XML organisés et structurés comme le montrent les deux suivants schémas:
Le projet se déroulera en quatre étapes que l'on nommera Boîtes à Outils; de 1 à 4 et sa réalisation s'étalera sur tout le second semestre.
-Extraction du texte par un script Perl qui s'appuie sur les expressions régulières.
-Extraction de texte par un script Perl via la bibliothèque XML::RSS.
-Etiquetage morphosyntaxique intégré au script via TreeTagger.
-Etiquetage morphosyntaxique avec Cordial (interface graphique).
-Extraction de patrons par un script Perl via la bibliothèque XML::RSS.
-Extraction de patrons par un script Perl sur les sorties Cordial.
-Extraction de patrons par une Feuille de style XSLT.
-Représentation en graphes de quelques résultats.