Dans cette étape, nous avons converti les fichiers de patrons patronsTT.txt et patronsCordial.txt en format GRAPHML
(voir les détails ici) avec le script patron2graphml.pl. Ce script prend en entrée une liste de patrons et crée un fichier XML
définissant les liens entre les mots.
Nous obtenons donc deux fichiers : patron-graphmlTT.xml pour les patrons issus de Tree-Tagger
et patron-graphmlCordial.xml pour les patrons issus de Cordial
.
Un bout de fichier en format GRAPHML
:
Pour que nous puissions créer des graphes avec le logiciel Pajek
, il faut convertir les fichiers en graphml
au format natif du Pajek
qui est un fichier .NET
. Nous obtenons ce fichier en appliquant au fichiers GRAPHML
une transformation XSL
GraphML2Pajek.xsl avec l'outils xsltproc
.
Nous obtenons donc deux fichiers : tt.net pour les patrons issus de Tree-Tagger
et cordial.net pour les patrons issus de Cordial
. Avant de charger ces fichiers dans Pajek
, il faut bien s'assurer que les fins de lignes sont CRLF - Windows.
Un graphe créé par Pajek
à partir de la totalité des patrons (2655 noeuds) relevés dans notre corpus et sans aucune édition manuelle peut avoir par exemple cette allure :
Une partie du fichier graphmlCordial.xml
(contenant 502 noeuds) converti en format Pajek
et éditée manuellement avec ce programme (de sorte que les liens entre les mots apparaissent clairement) donne ce graphe: