Objectifs

L'objectif de cette quatrième et dernière boîte à outils est la construction de graphes à partir des fichiers de patrons générés à l'étape précédente. La représentation sous forme de graphe permet de faire apparaître d'une manière relativement lisible les différences d'attraction entre les mots.

haut de la page

Outils

Nous disposons pour cette étape de deux programmes de génération de graphes :
  • Pajek : programme Windows gratuit développé par V. Batagelj et A. Mrvar
  • patron2graph.exe : programme écrit par S. Fleury
Pajek prend en entrée un format de fichier particulier (.net) qu'on génère en passant par le format graphml (qui est un format XML) grâce aux deux outils suivants :
  1. patron2graphml.pl : prend en entrée un fichier texte contenant des patrons et génère des fichiers du type patron-graphml.xml
  2. GraphML2Pajek.xsl : est une feuille de style XSLT qui génère à partir de ces fichiers des fichiers .net pour Pajek

haut de la page

Méthode n° 1 : Pajek

Toujours pour nous simplifier la tâche, j'ai écrit un petit script Perl qui automatise la chaîne de traitement qui va des patrons aux fichiers destinés à Pajek : fic.txt > fic.xml > fic.net. Il prend en entrée le nom du répertoire contenant les fichiers de patrons et produit en sortie deux répertoires :
  • resultats_graphml : qui contient les résultats de patron2graphml.pl >> aperçu (rubrique "Opinions")
  • resultats_altova : qui contient les résultats de GraphML2Pajek.xsl prêts à être utilisés par Pajek. (NB : j'ai modifié le programme patron2graphml.pl pour réduire le nombre de sorties écran à la seule ligne de fin de traitement du fichier : fic: done.) >> aperçu (Rubrique "Livres")

>> voir le script lanceur-poursortiePajek.pl

La génération de graphe sur Pajek se fait de la manière suivante :
ouvrir un fichier.net > Draw > draw > Layout > Energy > Fruchterman Reingold > 3D

On obtient, après réorganisation manuelle, un graphe du type (patron NOM/ADJ, rubrique "Culture"):


Le graphe n'est pas nécessairement extrêmement lisible au premier coup d'oeil, on remarque néanmoins les phénomènes suivants :

# De manière assez naturelle, les couples nom/prénoms ont tendance à s'attirer fortement (même si ce phénomène apparaît à la base suite à un étiquetage erroné) :


# On peut observer des attractions entre mots assez prévisibles (on est dans la rubrique Culture) :


# Et d'autres moins attendus, quoique pas très surprenants :


haut de la page

Méthode n° 2 : patron2graphe.exe

Ce programme se lance de la manière suivante :
patron2graphe.exe "codagedes2fichiers" fichiertaggé.txt

On obtient ainsi pour le patron NOM/PRP/NOM de la rubrique "Sport" un fichier au premier abord très peu lisible (NB je n'ai pas réglé le petit problème d'encodage) :


On commence à y voir un peu plus clair après réorganisation manuelle (notons que ladite réorganisation a pris une dizaine de minutes et qu'on a volontairement choisi un fichier relativement court). Les chiffres le long des flèches indiquent le poids des liens (cad le nombre d'occurrences de la relation) :


Phénomènes observés :

# mise en valeur des prépositions : "de", "du", "en", etc. se retrouvent au centre d'un faisceau de liens :


haut de la page