Programmation et projet encadré

Boîtes à Outils

Auteur : Li-chi WU ( PluriTAL Paris III )


        Introduction  

        Filtrage

        Étiquetage-Tree Tagger  

        Étiquetage-Cordial

        Extraction terminologique

        Des Textes aux Graphes








Introduction



Ce travail consiste à traiter des textes avec Perl. Le but est de construire des programmes qui parcourent une arborescence de fichiers, qui permettent de filtrer le contenu textuel des balises DESCRIPTION et qui appliquent un traitement sur chacun des fichiers rencontrés au moment du parcours. Le résultat obtenu est un fichier structuré (XML) contenant une trace du traitement réalisé sur les fichiers et en raffinant avec une feuille de style XSLT.



Filtrage



D'abord, je modifie un programme donné afin qu'il puisse filtrer le contenu textuel des balises DESCRIPTION.  Après l’avoir appliqué à une arborescence de fichiers, on obtient un fichier texte et un fichier XML.

programme : SORTIE_filtrage.pl
résultat en fichier texte : filtrage.txt
résultaten fichier XML : SORTIE_filtrage.xml
feuille de style : feuille_style_filtrage.xsl
sortie XML de feuille de style : SORTIE_filtrage_style.xml



Étiquetage-Tree Tagger



Ensuite, je modifie le script de filtrage puis je lance Tree TaggerLe résultat obtenu est un fichier XML et un autre fichier XML avec une feuille de style. Le script et ses résultats sont présentés ci-dessous.

programme : SORTIE_etiquetage.pl
résultat un mot par ligne en fichier texte : SORTIE_sansetiquetage.txt
résultat
étiqueté en fichier texte : outtagger.txt
résultat en fichier xml outtagger.txt.xml



Étiquetage-Cordial



Dans cet étape, un fichier texte créé grâce au script de filtrage est lancé par Cordial. Le fichier texte étiqueté par tree tagger n'est pas présenté de la même manière que celui traité par Cordial. La forme lemmée dans le fichier résultat de Cordial est dans la 2ème colonneun, l'inverse de celui de Tree Tagger. Voici ci-dessous le script et ses résultats.

programme : cordial.pl
t
exte executé sous Cordial : cordial.cnr
résultat en fichier xml : cordial.cnr.xml
feuille de style : feuille_style_cordial.xsl
sortie XML de feuille de style : cordial.cnr_style.xml




Extraction terminologique

Tree Tagger

A partir des résultats de Tree-Tagger, on a cherché des patrons syntaxiques. J'ai lancé le programme donné avec le patron NOM ADJ et ADJ NOM. On obtient les résultats ci-dessous.

programme : trouve_terme_treetagger.pl
patron
morpho-syntaxique : patron_nom_adj
résultat du fichier des termes : resultat_patron_treetagger.txt

Cordial

A partir du fichier texte étiqueté de Cordial, on a cherché des patrons syntaxiques. J'ai lancé le programme donné avec le patron NC + ADJ. On a des résultats ci-dessous.

programme : trouve_terme_cordial.pl
patron morpho-syntaxique : patron_NC_ADJ.txt
résultat du fichier des termes : resultat_patron_cordial.txt



Des Textes aux Graphes

A l'issu des résultats obtenus dans le travail précédent, on a construit des graphes de Tree Tagger et de Cordial.

programme : patron2graphml.pl
utilisé le résultat précédent de Tree Tagger :
resultat_patron_treetagger.txt
utilisé le résultat précédent de Cordial : resultat_patron_cordial.txt
résultat obtenu XML de Tree Tagger : patron_graphe_treetagger.xml
résultat obtenu XML de Cordial : patron_graphe_cordial.xml

J'ai transformé le fichier XML via une feuille de style sous Cooktop afin d'obtenir un fichier texte qui peut être chargé sous Pajek. Voici les résultats ci-dessous.

feuille de style : GraphML2Pajek.xsl
résultat texte Tree Tagger pour Pajek : pajek_treetagger.txt
graphe de Tree Tagger : graphe_treetagger.jpg
résultat texte Cordial pour Pajek : pajek_cordial.txt
graphe de Cordial : graphe_cordial.jpg