Plurital - Projet EncadréBoîte à outils 2009 |
Boîte à outils 4Avec le programme patron2graphe.exe, on peut construire un graphe avec les poids des liens. Le motif utilisé (voir ici) contient les mots : gouvernement, américain (dans tous les nombres et personnes), loi et parlement pour chercher un lien sémantique entre eux. En choisissant un motif, on limite beaucoup le résultat, afin de le rendre plus lisible. Un aperçu du graphe sans motif à la base des patrons de Cordial est accessible ici. Après avoir exécuté sous Cygwin la commande: ./patron2graphe.exe "iso-8859-1" Sortie_Bao3_Cordial_nom_adj.txt motif-cordial.txt , le résultat obtenu avec Cordial est le suivant: motif-gouv_Cordial.pdf La même commande pour la sortie de Bao3 avec Treetagger doit être exécutée avec « utf-8 » comme paramètre d'encodage et après avoir modifié l'encodage du fichier même. Il paraît que l'encodage de la sortie de Treetagger dans les étapes précédentes, est resté en UCS-2 Little Endian. Par choix personnel de l'encodage utf-8, la commande de l'exécution de devient: patron2graphe.exe./patron2graphe.exe "utf-8" Sortie_Bao3_Treetagger_nom_adj.txt motif-gouv.txt . Et le résultat est presque le même: motif-gouv_Treetagger.bmp Les graphes obtenus à partir des fichiers de patrons NOM-ADJ suivant les deux méthodes (avec Treetagger et avec Cordial) sont presque identiques. Très peu de liens sont différents. Par exemple, le lien gouvernement-plus-d-appel-américaine de Cordial est interrompu dans le graphe de Treetagger, dans le nœud américaine il manque des mots comme : filiale, critique, récession pour celui de Treetagger par rapport à celui de Cordial, dans le nœud américain du graphe de Cordial manque freinage-nord et aéronautique par rapport au correspondant du Treetagger, il existe des liens entre les mots loi, gouvernement et parlement sur le graphe de Treetagger qui ne sont pas présents sur celui de Cordial. Vu les explications de l'analyse des résultats, faites dans l'étape précédente, on peut faire les mêmes pour les résultats de Bao4. Les différentes catégorisations des mots extraits du corpus faites par les moyens de Treetagger et de Cordial, sont à la base des différences dans les graphes finaux. Tout de même, ces différences ne dépassent pas les 25% et on peut les juger satisfaisantes. Résultats de Bao4 : Graphe sans motif : graph_cordial_full.jpg Motif de construction du graphe : motif-gouv.txt Graphe avec Treetagger : motif-gouv_Treetagger.bmp Graphe avec Cordial: motif-gouv_Cordial.pdf Archive du programme utilisé : patron2graphe-2.0 |
|
© Ginka Yankova 2009 |