Mini projet boîte à outils
DESS Traductique, INALCO
Boîte
à outils 1 :
Le travail demandé
consiste à
faire des programmes pour extraire des fichiers XML. D’abord,
à partir d’une
arborescence de fichiers RSS, ici le dossier "2005", il fallait
extraire le contenu des balises
description et mettre le résultat dans un fichier XML. Cela
s’est fait grâce au
programme de filtrage appelé à l'origine
parcours-arborescence-fichiers.pl (donné par Serge Fleury)
et renommé pour plus de simplicité p.pl. Le résultat se trouve dans le fichier SORTIE.xml.
Boîte
à
outils 2 :
Ensuite, il fallait soumettre
le résultat, en fichier texte cette fois, au logiciel
Treetagger, qui ne fonctionne
qu'en ligne de commande et dont la fonction est
d’étiqueter les textes qu’on
lui donne en entrée. Pour cela, nous utilisons un programme
perl, intégré dans
le squelette du programme qui nous a été
donné. Ce programme s'appelle p2.pl. L’étape suivante consistait
ensuite à créer un fichier XML contenant les
données issues de l'analyse de Treetagger. Le résultat de cette manoeuvre est le fichier SORTIE2.xml.
Après cela, on refait le
même
type d'opération, mais cette fois avec Cordial, un
étiqueteur qui fonctionne
sous Windows mais pas en ligne de commande. Hélas, je n'ai pas eu le temps d'analyser l'utilisation de Cordial, et cette partie n'a donc pas encore été faite...
Boîte
à
outils 3 :
Par manque de temps et de
compétence
technique, je n'ai pas pu integrer le programme permettant l'extraction
de
patrons morpho-syntaxiques depuis l'analyse de Treetagger.