Accueil Boîte à outils 1 Boîte à outils 2 Boîte à outils 3 Boîte à outils 4

Boîte à outils 4

Présentation

A partir du résultat du traitement réalisé dans la BàO précédente, il s'agit de réaliser des graphes de mots qui s'attirent sous Pajek.
Ce module prend donc en entrée les listes de patrons résultant des extractions effectuées avec Xpath, -requêtes portant sur l'étiquetage par Tree-Tagger-, et la sortie du script aplliqué à l'étiquetage Cordial.

Les fichiers de patrons, pour pouvoir être traités par Pajek, sont convertis au format graphml avec un script Perl (patron2graphml.pl).
Une feuille de style Xslt (GraphML2Pajek.xsl) peut alors ensuite y être appliquée, de telle sorte que l'on obtient des fichiers de patrons compatibles avec Pajek, par exemple au format TXT.

patron2graphml.pl

Entrée = fichiers de patrons -> script -> Sortie = fichiers Graphml

Graphml est une application XML permettant de générer des graphes.

La première étape de ce programme est de générer un dictionnaire qui, à une clé (mot) associe tous les adjectifs cooccurrents. Le dictionnaire créé permet de compter les occurrences de patrons.

La seconde étape est de créer des noeuds et arcs les reliant; les noeuds sont les noms et adjectifs, les arcs représentent les relations entre ces noeuds.

Les turpitudes de l'encodage par défaut nous ont posé un léger problème. Nos fichiers de patrons ont été encodés automatiquement en UNICODE. Or, le script patron2graphml.pl doit être appliqué sur des fichiers ASCII.
Nous avons donc modifié l'encodage de nos fichiers de patrons afin de pouvoir exécuter le script.
En fait, il nous a suffi d'enregistrer nos fichiers sous l'encodage adéquat, via un éditeur de texte.

script commenté
sortie graphml Cordial
sortie graphml Tree-tagger

Feuille de style GraphML2Pajek.xsl

On applique à nos sorties Graphml une feuille de style qui génère un fichier structuré pour être interprété par Pajek.

fichier résultat Cordial pour Pajek
fichier résultat Tree-tagger pour Pajek

Pajek

 Pajek peut prendre en charge la représentation graphique de tels fichiers, permettant ainsi d'identifier des ilôts de sens.

Graphe de la sortie Cordial





Graphe de la sortie Tree-Tagger



Et finalement, c'est merveilleux...

Au coeur du corps d'un graphe Pajek, le mot perdu dans un froid cotexte retrouve sa raison d'être dans le réseau sémantique.

Pajek permet d'affiner la précision visuelle des graphes. Parce que, comme on le voit plus haut, d'emblée ces images ne sont pas fort limpides.
L'option Transform > Reduction > Hiérarchie permet d'obtenir des graphes moins chargés, en sélectionnant uniquement les noeuds ayant les attirances les plus fortes.

Graphe allégé de la sortie Cordial




Graphe allégé de la sortie Tree-Tagger




Remarques et commentaires

Il est possible, si l'on regarde bien en détails les toiles sémantiques présentées plus haut, d'identifier des noeuds de poids fort dans les graphes produits sur la base des résultats de nos étiqueteurs.
Par exemple, les occurrences de mots tels que président, nationale, ministre sont globalement contenues dans le même réseau, de même pour la plupart des adjectifs de nationalité, français, américain, etc...

Par ailleurs, on remarque que les résultats sont différents parce que les performances des étiqueteurs utilisés ne sont pas similaires.

Notons qu'il aurait néanmoins fallu, avant d'en venir à la représentation en graphes, passer par une étape de calcul de l'information mutuelle, non incluse dans les modules de traitement évoqués ici. Cela aurait permis d'obtenir une représentation plus pertinente de l'attirance des mots entre eux, car fondée sur des calculs plus affinés, donc moins chargée visuellement.



***
En espérant que notre rapport retiendra votre attention et que vous y apporterez une réponse positive, je vous prie de croire, Messieurs, à mes sincères salutations et à l'expression de ses sentiments distingués.
Bien à vous,
M&M's