Boîte à outils 4
Présentation
A partir du résultat du traitement
réalisé dans la BàO
précédente, il s'agit de réaliser des
graphes de mots qui s'attirent sous
Pajek.
Ce module prend donc en entrée les listes de patrons
résultant des extractions effectuées avec
Xpath, -requêtes
portant sur l'étiquetage par
Tree-Tagger-,
et la sortie du script aplliqué à
l'étiquetage
Cordial.
Les fichiers de patrons, pour pouvoir être traités
par
Pajek, sont
convertis au format
graphml
avec un script
Perl
(patron2graphml.pl).
Une feuille de style
Xslt
(GraphML2Pajek.xsl) peut alors ensuite y être
appliquée, de telle
sorte que l'on obtient des fichiers de patrons compatibles avec
Pajek, par exemple au format
TXT.
patron2graphml.pl
Entrée = fichiers de patrons -> script
->
Sortie = fichiers Graphml
Graphml est une
application
XML
permettant de générer des graphes.
La première étape de ce programme est de
générer un dictionnaire qui,
à une clé (mot) associe tous les adjectifs
cooccurrents. Le dictionnaire créé permet de
compter les occurrences de patrons.
La seconde étape est de créer des noeuds et arcs
les reliant; les noeuds sont les noms et adjectifs, les arcs
représentent les relations entre ces noeuds.
Les turpitudes de l'encodage par défaut nous ont
posé un léger problème. Nos fichiers
de patrons ont été encodés
automatiquement en UNICODE.
Or, le script
patron2graphml.pl doit être appliqué sur des
fichiers ASCII.
Nous avons donc modifié l'encodage de nos fichiers de
patrons afin de pouvoir exécuter le script.
En fait, il nous a suffi d'enregistrer nos fichiers sous l'encodage
adéquat, via un éditeur de texte.
script
commenté
sortie
graphml Cordial
sortie
graphml Tree-tagger
Feuille de style GraphML2Pajek.xsl
On applique à nos sorties
Graphml
une
feuille
de style qui génère un fichier
structuré pour être
interprété par
Pajek.
fichier
résultat Cordial pour Pajek
fichier
résultat Tree-tagger pour Pajek
Pajek
Pajek peut
prendre en
charge la représentation graphique de tels fichiers,
permettant ainsi d'identifier des ilôts de sens.
Graphe de la sortie Cordial
Graphe de la sortie Tree-Tagger
Et finalement, c'est merveilleux...
Au coeur du corps d'un
graphe Pajek, le mot perdu dans un froid cotexte
retrouve sa raison d'être dans le
réseau sémantique.
Pajek permet d'affiner
la précision visuelle des graphes. Parce que, comme on le
voit plus haut, d'emblée ces images ne sont pas fort
limpides.
L'option
Transform >
Reduction > Hiérarchie permet d'obtenir
des graphes moins chargés, en sélectionnant
uniquement les noeuds ayant les attirances les plus fortes.
Graphe allégé de la sortie
Cordial
Graphe allégé de la sortie
Tree-Tagger
Remarques et commentaires
Il est possible, si l'on regarde bien en détails les toiles
sémantiques présentées plus haut,
d'identifier des
noeuds de poids fort dans les graphes produits sur la base des
résultats de nos étiqueteurs.
Par exemple, les occurrences de mots tels que
président,
nationale,
ministre sont
globalement contenues dans le même réseau, de
même pour la plupart des adjectifs de nationalité,
français,
américain,
etc...
Par ailleurs, on remarque que les résultats sont
différents parce que les performances des
étiqueteurs utilisés ne sont pas similaires.
Notons qu'il aurait néanmoins fallu, avant d'en venir
à la
représentation en graphes, passer par une étape
de
calcul
de l'
information
mutuelle, non incluse dans les
modules de
traitement évoqués ici. Cela aurait permis
d'obtenir une représentation plus pertinente de l'attirance
des mots entre eux, car fondée sur des calculs plus
affinés, donc moins chargée visuellement.
***
En
espérant que notre rapport
retiendra votre
attention et
que vous y apporterez une réponse positive, je vous prie de
croire, Messieurs, à mes sincères salutations et
à l'expression de ses sentiments distingués.
Bien à vous,
M&M's