Présentation:

Ce site est la réalisation du projet "Boites à outils" dans le cadre du cours de Programmation et projet encadré du Master I Plurital. Ce projet est encadré par S. Fleury, JM Daube et R. Belmouhoub.


Il s'agit d'utiliser des scripts Perl, des outils d'étiquetage morpho-syntaxique Treetagger et Cordial ainsi que des logiciels de création des graphes patron2graph.exe et le Trameur afin de pouvoir traiter des données textuelles.


Nous appliquons ces outils et ces scripts à un ensemble de fichiers RSS du journal Le Monde du l'année 2008.

Nous travaillons sur 2 rubriques différentes Europe et International.


Notre projet va étre divisé en 4 boites:


BaO 1: Elle consiste à filtrer et nettoyer le contenu textuel des fils RSS.

BaO 2: Nous étiquetons le texte débalisé avec Treetagger et Cordial.

BaO 3: A partir des fichiers étiquetés, on extrait les patrons NOM NOM, NOM ADJ et NOM PRP NOM grâce à des requêtes Xpath et des scripts en Perl.

BaO 4: On va créer des graphes à partir de notre sortie de Bao3 en utilisant un programme patron2graph.exe et à partir aussi de notre sortie de Bao1 en utilisant le Trameur.


Aouini Mourad (Paris X)

aouini.mourad@gmail.com


  BAO 1

Télécharger le script + Les sorties de BAO1

  BAO 2

Télécharger le script + Les sorties de BAO2

  BAO 3

Télécharger le script + Les sorties de BAO3