Hoby RATSIMBA Master Plurital |
PROJET "BOITES A OUTILS" |
PROGRAMMATION ET PROJET ENCADRE
Ce module vise à démontrer la mise en oeuvre d'une chaîne de traitement textuel semi-automatique depuis la récupération des données jusqu'à leur présentation. On posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction ...) et fera appel aux méthodes et outils informatiques à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...)
BOITES A OUTILS I : <<Le filtrage>>
F I L T R A G E |
Objectif |
Cette première partie concerne le filtrage des contenus textuels des balises<CONTENU>dans une arborescence de fichiers RSS (extraits d'articles de presse en ligne) <contenu>description</contenu> |
Résultat |
Le programme se déroule à l’aide de la commande: parcours-arborescence.pl. En sortie, on obtient un fichier structuré: filtrage.xml, contenant une trace du traitement réalisé sur les fils RSS. |
|
Raffinement |
L'application d'une feuille de styles: feuille-style-filtrage-xsl, sur ce fichier XML permet de le voir sous forme de tableau. |
BOITES A OUTILS II : <<L'étiquetage>>
E T I Q U E T A G E |
Objectif |
L’objectif de cette deuxième partie du projet B.A.O. est de présenter le traitement automatisé et l’application des méthodes d'étiquetage sur des fichiers structurés. Le travail a été réalisé à partir d’une arborescence de fils RSS (articles de presses en ligne) dont le contenu sera étiqueté syntaxiquement avec Treetagger et Cordial. |
Treetagger |
Après le parcours de l'arborescence de fils RSS, on va passer à l'étiquetage du contenu de ces articles de presse avec Treetagger à l'aide de la commande treee.pl. En sortie, on aura des fichiers contenant les résultats du traitement : sortietree.txt, treetag.txt, tree.xml qu'on peut voir sous forme de tableau après l'application de la feuille de styles: etiquetage-TreeTagger-xsl. |
|
Cordial
|
Cette partie est consacrée à l'étiquetage du contenu de l'arborescence de fils RSS avec Cordial. En entrée, on a le résultat du filtrage du contenu des balises <CONTENU>: filtrage.xml, on y applique la commande nettoyeur.pl afin d'obtenir du texte brut : sortie_treetagger.txt. Sur cordial, ce texte brut se présente comme suit sortie_treetagger.cnr.txt. |
BOITES A OUTILS III : <<L'extraction terminologique>>
E X T R A C T I O N
T E R M I N O L O G I Q U E |
Objectif |
Cette
partie est consacrée à l’extraction des suites de tokens
correspondant à des patrons morpho-syntaxiques. Les formats de
patrons sont différents selon l'analyseur utilisé.
|
Test |
Avant de
commencer l’application de ce programme sur les fils RSS
présentés dans B.A.O I et II, voici une brève
démonstration sur un fichier issu de Cordial.
|
|
Fils RSS |
Après
cette brève démonstration d'extraction terminologique sur un
fichier issu de Cordial, nous allons maintenant adapter
ce programme pour qu’il soit capable de prendre en entrée
des sorties issues de Treetagger (pour produire
évidemment le même type de résultat). On va reprendre le programme de parcours d’arborescence vu dans les BàO I et II, puis modifier le programme de parcours afin de produire en sortie un fichier contenant le résultat du filtrage terminologique sur l’arborescence complète des fils RSS.
|
BOITES A OUTILS IV:<<Des textes aux graphes>>
D E S
T E X T E S
A U X
G R A P H E S |
Objectif |
Après
l'extraction des suites de tokens correspondants à des patrons
morpho-syntaxiques prédéfinis. Le travail à faire
dans cette partie doit conduire à construire des graphes donnant à
voir ces patrons. Les graphes seront construits à l'aide du
logiciel Pajek.
|
Test |
Pour commencer
l'application de ce programme sur l'arborescence complète de fils RSS, voici une
brève démonstration sur un fichier: hawai.xml.
Voici le patron syntaxique qu'on veut obtenir: Patron2graphml.pl
|
|
Fils RSS |
On va maintenant
construire des graphes donnant à voir les patrons
morpho-syntaxiques des contenus de l'arborescence complète du
fils RSS.
On va prendre en entrée le fichier patron_sortietree.txt dans lequel se trouve les suites de tokens NOM ADJ/ADJ NOM de l'arborescence. On va ensuite transformer cette liste de patrons au format graphml pour pouvoir l'afficher dans Pajek. Pour cela, on va utiliser le programme patron2graphml.pl. Par la suite, on obtient un fichier au format graphml patron-graphml.xml. On applique la feuille de styles GraphML2Pajek.xsl sur ce fichier pour obtenir patron_graphml.txt, un fichier pris en charge par Pajek. Voici le résultat obtenu:
|