Programmation
et projet encadré
Boîtes à Outils
Auteur
: Li-chi WU ( PluriTAL Paris III )
Filtrage
Étiquetage-Tree Tagger
Étiquetage-Cordial
Extraction terminologique
Des Textes aux Graphes
Introduction
Ce travail consiste à
traiter des textes avec Perl. Le but est de construire des programmes
qui parcourent une arborescence de fichiers, qui permettent de filtrer
le contenu textuel des balises DESCRIPTION et qui
appliquent un traitement sur chacun des fichiers rencontrés
au moment du parcours. Le résultat obtenu est un
fichier structuré (XML) contenant une trace du traitement
réalisé sur les
fichiers et en raffinant avec une feuille de style XSLT.
Filtrage
D'abord, je modifie un programme donné afin qu'il puisse filtrer le contenu
textuel des balises DESCRIPTION. Après l’avoir appliqué à une arborescence
de fichiers, on obtient un fichier texte et un fichier XML.
programme : SORTIE_filtrage.pl
résultat en fichier texte : filtrage.txt
résultaten fichier XML : SORTIE_filtrage.xml
feuille de style : feuille_style_filtrage.xsl
sortie XML de feuille de style : SORTIE_filtrage_style.xml
Étiquetage-Tree Tagger
Ensuite, je
modifie le script de filtrage puis je
lance Tree Tagger. Le
résultat obtenu est un fichier
XML et un autre fichier XML avec une feuille de style. Le script et ses
résultats sont présentés ci-dessous.
programme : SORTIE_etiquetage.pl
résultat un mot par ligne en
fichier texte : SORTIE_sansetiquetage.txt
résultat étiqueté en
fichier texte : outtagger.txt
résultat en fichier xml : outtagger.txt.xml
Étiquetage-Cordial
Dans cet étape, un fichier
texte créé grâce au script de filtrage est lancé par Cordial. Le fichier texte étiqueté
par tree tagger n'est pas présenté de la même
manière que celui traité par Cordial. La forme
lemmée dans le fichier résultat de Cordial est dans la
2ème colonneun, l'inverse de celui de Tree Tagger. Voici
ci-dessous le script et
ses
résultats.
programme : cordial.pl
texte executé sous Cordial : cordial.cnr
résultat en fichier xml : cordial.cnr.xml
feuille de style : feuille_style_cordial.xsl
sortie XML de feuille de style : cordial.cnr_style.xml
Extraction terminologique
Tree Tagger
A partir des résultats
de Tree-Tagger, on a
cherché des patrons syntaxiques. J'ai lancé le programme donné
avec le patron NOM ADJ et ADJ NOM. On obtient les résultats ci-dessous.
programme : trouve_terme_treetagger.pl
patron morpho-syntaxique : patron_nom_adj
résultat du fichier des termes : resultat_patron_treetagger.txt
Cordial
A partir du fichier texte étiqueté
de Cordial, on a
cherché des patrons syntaxiques. J'ai lancé le programme donné
avec le patron NC + ADJ. On a des résultats ci-dessous.
programme : trouve_terme_cordial.pl
patron morpho-syntaxique : patron_NC_ADJ.txt
résultat du fichier des termes : resultat_patron_cordial.txt
Des Textes aux Graphes
A
l'issu des résultats obtenus dans le travail
précédent, on a construit des graphes de Tree Tagger et
de Cordial.
programme : patron2graphml.pl
utilisé le résultat précédent de Tree Tagger : resultat_patron_treetagger.txt
utilisé le résultat précédent de Cordial : resultat_patron_cordial.txt
résultat obtenu XML de Tree Tagger : patron_graphe_treetagger.xml
résultat obtenu XML de Cordial : patron_graphe_cordial.xml
J'ai
transformé le fichier XML via une
feuille de style sous Cooktop afin d'obtenir un fichier texte qui peut
être chargé sous Pajek. Voici les résultats
ci-dessous.
feuille de style : GraphML2Pajek.xsl
résultat texte Tree Tagger pour Pajek : pajek_treetagger.txt
graphe de Tree Tagger : graphe_treetagger.jpg
résultat texte Cordial pour Pajek : pajek_cordial.txt
graphe de Cordial : graphe_cordial.jpg