Les graphes
GraphML
Les fichiers patron extraits doivent être transformés dans un format XML avant de passer au format de Pajek. Le script patron2graphML prends en entrée les fichiers des occurences de patrons, contenant sur chaque ligne une sequence de mots séparés par un espace. Les mots sont stockés ensuite dans un tableau associatif entre un mot et une référence sur un tableau stockant le reste des mots à droite.
Le tableau associatif est converti en arbre ayant pour noeud les mots gauche du tableau. Le fichier GraphML est de la forme
<?xml version="1.0" encoding="iso-8859-1"?>
<graphml>
<key id="d0" for="node" attr.name="forme" attr.type="string"/>
<key id="d1" for="edge" attr.name="frequence" attr.type="double"/>
<graph edgedefault="undirected">
<node id=\"$id\"><data key=\"d0\">$mot</data></node>
<node id=\"$id\"><data key=\"d0\">$cible</data></node>
<edge source=\"$tmpID\" target=\"$listeId{$cible}\"><data key=\"d1\">$nbpatron</data></edge>
</graph>
</graphml>
Pajek
Pajek utilise un format utilisant des données présentes dans les fichiers GraphML, pour passer du second au premier, on copie le contenu des balises node en *Vertices $verticecount @contenu et celui des balises edge en *Edges @edges. Le fichier est donc de la forme:
*Vertices 16
1 "dÃ"
...
16 "tique"
*Edges
1 1 3702
...
14 15 1
Tableau des Résultats
Fichier | Format | description/commentaire |
---|---|---|
Cordial.cnr | Cordial | étiquetage cordial |
cordial.xml | Xml | étiquettes formatées en xml |
cordialnomadj.gml | Graphml | parton Nom adjectif |
cordialnomadj.pajek | Pajek | résultat de gml vers pajek |
cordialnomadj.txt | fichier parton | parton nom adj de l'étiquetage cordial |
cordialnomnom.gml | Graphml | parton Nom Nom |
cordialnomnom.pajek | Pajek | étiquetage cordial |
cordialnomnom.txt | texte patron | étiquette le fichier texte en entrée sortie:fichier taggé |
cordialNomprepnom.gml | GraphML | étiquetage cordial |
cordialNomprepnom.pajek | Pajek | étiquette le fichier texte en entrée sortie:fichier taggé |
cordialNomprepnom.txt | texte patron | Nom préposition nom |
corpus.txt | Texte | extrait des balises description des RSS |
treegraphml.xml | GraphML | graphe de l'étiquetage treetagger |
treepajek.txt | Pajek | graphe pajek du fichier taggé |
treepajek.tag.txt | treetagger | étiquetage treetagger |
treetagger.xml | XML | étiquetage treetagger en XML |
treetaggerNomDdj.gml | Graphml | parton Nom adjectif treetagger |
treetaggerNomAdj.pajek | Pajek | résultat de gml vers pajek |
treetaggerNomAdj.txt | fichier parton | parton nom adj de l'étiquetage treetagger |
treetaggerNomNom.gml | >Graphml | parton Nom Nom |
treetaggerNomNom.pajek | Pajek | étiquetage treetagger |
treetaggerNomNom.txt | texte patron | étiquette le fichier texte en entrée sortie:fichier taggé |
treetaggerNomPrepNom.gml | GraphML | étiquetage treetagger |
treetaggerNomPrepNom.pajek | Pajek | étiquette le fichier texte en entrée sortie:fichier taggé |
treetaggerNomPrepNom.txt | texte patron | Nom préposition nom |
sortieeconomie.xml | XML | Exemple d'une des extractions de RSS catégorisés et dont la sortie est formatée en XML |
“On two occasions I have been asked, ‘If you put into the machine wrong figures, will the right answers come out?’ I am not able rightly to apprehend the kind of confusion of ideas that could provoke such a question.”
- Charles Babbage