Les graphes

GraphML

Les fichiers patron extraits doivent être transformés dans un format XML avant de passer au format de Pajek. Le script patron2graphML prends en entrée les fichiers des occurences de patrons, contenant sur chaque ligne une sequence de mots séparés par un espace. Les mots sont stockés ensuite dans un tableau associatif entre un mot et une référence sur un tableau stockant le reste des mots à droite.

Le tableau associatif est converti en arbre ayant pour noeud les mots gauche du tableau. Le fichier GraphML est de la forme

<?xml version="1.0" encoding="iso-8859-1"?>

    <graphml>

     <key id="d0" for="node" attr.name="forme" attr.type="string"/>

     <key id="d1" for="edge" attr.name="frequence" attr.type="double"/>

     <graph edgedefault="undirected">

    <node id=\"$id\"><data key=\"d0\">$mot</data></node>

                  <node id=\"$id\"><data key=\"d0\">$cible</data></node>

            <edge source=\"$tmpID\" target=\"$listeId{$cible}\"><data key=\"d1\">$nbpatron</data></edge>

</graph>

</graphml>

Pajek

Pajek utilise un format utilisant des données présentes dans les fichiers GraphML, pour passer du second au premier, on copie le contenu des balises node en *Vertices $verticecount @contenu et celui des balises edge en *Edges @edges. Le fichier est donc de la forme: *Vertices 16
1 "dÃ"
...
16 "tique"
*Edges
1 1 3702
...
14 15 1

Tableau des Résultats

Fichier Format description/commentaire
Cordial.cnr Cordial étiquetage cordial
cordial.xml Xml étiquettes formatées en xml
cordialnomadj.gml Graphml parton Nom adjectif
cordialnomadj.pajek Pajek résultat de gml vers pajek
cordialnomadj.txt fichier parton parton nom adj de l'étiquetage cordial
cordialnomnom.gml Graphml parton Nom Nom
cordialnomnom.pajek Pajek étiquetage cordial
cordialnomnom.txt texte patron étiquette le fichier texte en entrée sortie:fichier taggé
cordialNomprepnom.gml GraphML étiquetage cordial
cordialNomprepnom.pajek Pajek étiquette le fichier texte en entrée sortie:fichier taggé
cordialNomprepnom.txt texte patron Nom préposition nom
corpus.txt Texte extrait des balises description des RSS
treegraphml.xml GraphML graphe de l'étiquetage treetagger
treepajek.txt Pajek graphe pajek du fichier taggé
treepajek.tag.txt treetagger étiquetage treetagger
treetagger.xml XML étiquetage treetagger en XML
treetaggerNomDdj.gml Graphml parton Nom adjectif treetagger
treetaggerNomAdj.pajek Pajek résultat de gml vers pajek
treetaggerNomAdj.txt fichier parton parton nom adj de l'étiquetage treetagger
treetaggerNomNom.gml >Graphml parton Nom Nom
treetaggerNomNom.pajek Pajek étiquetage treetagger
treetaggerNomNom.txt texte patron étiquette le fichier texte en entrée sortie:fichier taggé
treetaggerNomPrepNom.gml GraphML étiquetage treetagger
treetaggerNomPrepNom.pajek Pajek étiquette le fichier texte en entrée sortie:fichier taggé
treetaggerNomPrepNom.txt texte patron Nom préposition nom
sortieeconomie.xml XML Exemple d'une des extractions de RSS catégorisés et dont la sortie est formatée en XML

“On two occasions I have been asked, ‘If you put into the machine wrong figures, will the right answers come out?’ I am not able rightly to apprehend the kind of confusion of ideas that could provoke such a question.”

- Charles Babbage