Ce site est la réalisation du projet "Boites à outils" dans le cadre du cours de Programmation et projet encadré du Master I Plurital. Ce projet est encadré par S. Fleury, JM Daube et R. Belmouhoub.
Il s'agit d'utiliser des scripts Perl, des outils d'étiquetage morpho-syntaxique Treetagger et Cordial ainsi que des logiciels de création des graphes patron2graph.exe et le Trameur afin de pouvoir traiter des données textuelles.
Nous appliquons ces outils et ces scripts à un ensemble de fichiers RSS du journal Le Monde du l'année 2008.
Nous travaillons sur 2 rubriques différentes Europe et International.
Notre projet va étre divisé en 4 boites:
BaO 1: Elle consiste à filtrer et nettoyer le contenu textuel des fils RSS.
BaO 2: Nous étiquetons le texte débalisé avec Treetagger et Cordial.
BaO 3: A partir des fichiers étiquetés, on extrait les patrons NOM NOM, NOM ADJ et NOM PRP NOM grâce à des requêtes Xpath et des scripts en Perl.
BaO 4: On va créer des graphes à partir de notre sortie de Bao3 en utilisant un programme patron2graph.exe et à partir aussi de notre sortie de Bao1 en utilisant le Trameur.
Aouini Mourad (Paris X)
aouini.mourad@gmail.com