Hoby RATSIMBA
 Master Plurital

    PROJET "BOITES A OUTILS"

                PROGRAMMATION ET PROJET ENCADRE

        Ce module vise à démontrer la mise en oeuvre d'une chaîne de traitement textuel semi-automatique depuis la récupération des données jusqu'à leur présentation. On posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction ...) et fera appel aux méthodes et outils informatiques à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...) 

 

 

BOITES A OUTILS  I : <<Le filtrage>>

F

I

L

T

R

A

G

E

Objectif 

    Cette première partie concerne le filtrage des contenus textuels des balises<CONTENU>dans une arborescence de fichiers RSS (extraits d'articles de presse en ligne)                            

                                <contenu>description</contenu>

Résultat

   Le programme se déroule à l’aide de la commande: parcours-arborescence.pl.  En  sortie, on obtient un fichier structuré: filtrage.xml, contenant une trace du traitement réalisé sur les fils RSS.   

Raffinement

    L'application d'une feuille de styles: feuille-style-filtrage-xsl, sur ce fichier XML permet de le voir sous forme de tableau.

 

 

BOITES A OUTILS II : <<L'étiquetage>>

E

T

I

Q

U

E

T

A

G

E

Objectif

  L’objectif de cette deuxième partie du projet B.A.O. est de présenter le traitement automatisé et l’application des méthodes d'étiquetage sur des fichiers structurés. Le travail a été réalisé à partir d’une arborescence de fils RSS (articles de presses en ligne) dont  le contenu sera étiqueté syntaxiquement avec Treetagger et Cordial.

 Treetagger

   Après le parcours de l'arborescence de fils RSS, on va passer à l'étiquetage du contenu de ces articles de presse avec Treetagger à l'aide de la commande treee.pl. En sortie, on aura des fichiers contenant les résultats du traitement : sortietree.txt, treetag.txt, tree.xml qu'on peut voir sous forme de tableau après l'application de la feuille de styles: etiquetage-TreeTagger-xsl.

Cordial

 

    Cette partie est consacrée à l'étiquetage du contenu de l'arborescence de fils RSS avec Cordial. En entrée, on a le résultat du filtrage du contenu des balises <CONTENU>: filtrage.xml, on y applique la commande nettoyeur.pl afin d'obtenir du texte brut : sortie_treetagger.txt. Sur cordial, ce texte brut se présente comme suit sortie_treetagger.cnr.txt

 

 

 

BOITES A OUTILS III : <<L'extraction terminologique>>

E

X

T

R

A

C

T

I

O

N

 

 T

E

R

M

I

N

O

L

O

G

I

Q

U

E

Objectif

   Cette partie est consacrée à l’extraction des suites de tokens correspondant à des patrons morpho-syntaxiques. Les formats de patrons sont différents selon l'analyseur utilisé.
  • Format Treetagger:     NOM ADJ
  • Format Cordial:          NC[A-Z]+ ADJ[A-Z]+

Test

   Avant de commencer l’application de ce programme sur les fils RSS présentés dans B.A.O I et II, voici une brève démonstration sur un fichier issu de Cordial.

                         

         

Fils RSS

   Après cette brève démonstration d'extraction terminologique sur un fichier issu de  Cordial, nous allons maintenant adapter ce programme pour qu’il soit capable de prendre en entrée des sorties issues de Treetagger  (pour produire évidemment le même type de résultat).

   On va reprendre le programme de parcours d’arborescence vu dans les BàO I et II, puis modifier le programme de parcours afin de produire en sortie un fichier contenant le résultat du filtrage terminologique sur l’arborescence complète des fils RSS. 

          

          

           

 

 

BOITES A OUTILS IV:<<Des textes aux graphes>>

D

E

S

 

 T

E

X

T

E

S

 

 A

U

X

 

 G

R

A

P

H

E

S

Objectif

       Après l'extraction des suites de tokens correspondants à des patrons morpho-syntaxiques prédéfinis. Le travail à faire dans cette partie doit conduire à construire des graphes donnant à voir ces patrons. Les graphes seront construits à l'aide du logiciel Pajek.

 

Test

       Pour commencer l'application de ce programme sur l'arborescence complète de fils RSS, voici une brève démonstration sur un fichier: hawai.xml. Voici le patron syntaxique qu'on veut obtenir:  Patron2graphml.pl. On y applique la feuille de style GraphML2Pajek.xsl afin d'obtenir le contenu hawai.txt qu'on va présenter sous forme de graphe.

                  

           

 

Fils RSS

     On va maintenant construire des graphes donnant à voir les patrons morpho-syntaxiques des contenus de l'arborescence complète du fils RSS.

    On va prendre en entrée le fichier patron_sortietree.txt dans lequel se trouve les suites de tokens NOM ADJ/ADJ NOM de l'arborescence. On va ensuite transformer cette liste de patrons au format graphml pour pouvoir l'afficher dans Pajek. Pour cela, on va utiliser le programme patron2graphml.pl

                   

     Par la suite, on obtient un fichier au format graphml patron-graphml.xml. On applique la feuille de styles GraphML2Pajek.xsl sur ce fichier pour obtenir patron_graphml.txt, un fichier pris en charge par Pajek. Voici le résultat obtenu: