Mini projet boîte à outils

Faïna RAMDANI

        DESS Traductique, INALCO

Boîte à outils 1 :

Le travail demandé consiste à faire des programmes pour extraire des fichiers XML. D’abord, à partir d’une arborescence de fichiers RSS, ici le dossier "2005", il fallait extraire le contenu des balises description et mettre le résultat dans un fichier XML. Cela s’est fait grâce au programme de filtrage appelé à l'origine parcours-arborescence-fichiers.pl (donné par Serge Fleury) et renommé pour plus de simplicité p.pl. Le résultat se trouve dans le fichier SORTIE.xml.

Boîte à outils 2 :

Ensuite, il fallait soumettre le résultat, en fichier texte cette fois, au logiciel Treetagger, qui ne fonctionne qu'en ligne de commande et dont la fonction est d’étiqueter les textes qu’on lui donne en entrée. Pour cela, nous utilisons un programme perl, intégré dans le squelette du programme qui nous a été donné. Ce programme s'appelle p2.pl. L’étape suivante consistait ensuite à créer un fichier XML contenant les données issues de l'analyse de Treetagger. Le résultat de cette manoeuvre est le fichier SORTIE2.xml.
Après cela, on refait le même type d'opération, mais cette fois avec Cordial, un étiqueteur qui fonctionne sous Windows mais pas en ligne de commande. Hélas, je n'ai pas eu le temps d'analyser l'utilisation de Cordial, et cette partie n'a donc pas encore été faite...

Boîte à outils 3 :

Par manque de temps et de compétence technique, je n'ai pas pu integrer le programme permettant l'extraction de patrons morpho-syntaxiques depuis l'analyse de Treetagger.