PROJET BOITE A OUTILS
créé par Nadia Makouar & Maria Doganova
Langues O'


Accueil


Le projet "Boîtes à outils" est réalisé dans le cadre du cours de Programmation & projet encadré du Master I Plurital.



L'objectif de ce cours est l'utilisation d'un ensemble d'outils informatiques pour la constitution d'une chaîne de traitement textuel semi-automatique. Il s'agit de se familiariser avec le langage de programmation Perl, les outils d'étiquetage morpho-syntaxique Treetagger et Cordial ainsi que le logiciel de création de graphes lexicométriques Pajek. L'idée est de rendre compte des cooccurrences et des proximités lexicales.

Nous appliquons ces outils à un ensemble de fichiers RSS en provenance du site Internet du jounal Le Monde répertoriés dans un seul dossier. Nous travaillons sur 18 rubriques différentes (A la Une, Opinions, International...).
Le dossier de travail est disponible par téléchargement ici
Ces fichiers sont appelés également flux RSS ou fils RSS. Il s'agit de fichiers XML contenant des informations maintenues constamment à jour.

Ces flux de contenus sont disponibles gratuitement sur presque la totalité des sites web. Le traitement sur ces fils se fera en 4 étapes:


BàO 1: Elle consiste au filtrage du contenu textuel des fils RSS.

BàO 2: Nous étiquetons le texte débalisé avec Treetagger et Cordial.

BàO 3: A partir des fichiers étiquetés, nous extrayons les patrons syntaxiques grâce à des requêtes Xpath et un script en Perl.

BàO 4: Les fichiers de patrons sont transformés en graphes grâce à Pajek.