ACCUEIL

Introduction

Cette présentation a été élaborée par Ivan Šmilauer (Master 1 Professionnel, INALCO - Documents numériques multilingues). Il s'agit d'un travail de fin de semestre (printemps 2007) dans le cadre du cours Programmation et projet encadré, assuré par PluriTAL à l'université Paris III (enseignants Serge Fleury et Rachid Belmouhoub).

Objectifs

L'objectif de ce cours était une "mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation". Il fallait acquérir un certain nombre de techniques qui nous permettent de construire et d'exploiter des corpus de données linguistiques provenant de l'Internet.

Plan de travail

Au départ, on dispose d'une arborescence de répertoires qui contiennent des fils RSS (Really Simple Syndication) du journal Le Monde (regardez cette arborescence ici). Ces fichiers représentent le contenu des fils enregistrés quotidiennement à 19 heures à partir du 20 novembre au 21 décembre 2007.

Le but de la première étape (partie filtrage) était d'extraire le contenu textuel de certaines balises des fichiers XML de RSS et de les enregistrer dans un seul fichier, prêt à servir comme entrée pour les opérations suivantes.

Deuxièmement (partie étiquetage), nous avons étiqueté le fichier obtenu par deux étiqueteurs différents - Tree-Tagger et Cordial - pour obtenir de l'information métalinguistique. Tree-Tagger permet d'enchaîner cette opération immédiatement après le filtrage, car il s'agit d'un outil fonctionnant en ligne de commande ; Cordial est un logiciel Windows qui demande une intervention humaine.

L'étiquetage linguistique nous permet d'accéder à des traitements de texte plus spécifiques, notamment à l'extraction des patrons (partie extraction), ce qui est une opération qui permet d'obtenir un ensemble de n-uplets de mots en fonction de leur catégorie grammaticale (par exemple la recherche des couples formés par un nom suivi d'un adjectif dans notre cas).

La dernière partie (partie graphes) met en ouvre une chaîne de traitements qui prend en entrée les fichiers de patrons et qui donne en sortie un graphe de constellation de couples de mots dans notre corpus.

Techniques

La condition nécessaire de notre travail était l'appropriation des bases de la technologie XML qui est le format des fils RSS. Pour l'affichage de certains résultats de notre travail, nous avons utilisé des transformations XSL impliquant l'utilisation des requêtes Xpath.

Pour le coté programmation, nous avons utilisé des scripts perl qui étaient proposés par nos enseignants. Le code des programmes a été suffisamment commenté pendant le cours pour que l'on puisse y apporter nos propres modifications en fonction de nos besoins.

Ensuite, il fallait se familiariser avec les étiqueteurs TreeTager (disponible librement ici) et Cordial, un produit commercial de la société Synapse. Pour la création des graphes, nous avons utilisé le logiciel Pajek (voir ici).

La totalité des traitements (sauf Cordial) a été exécutée sur Mac OS X avec une machine virtuelle Windows XP avec Parallels pour pouvoir utiliser Pajek.

remonter