Description générale

Étapes

Le but de ce travail est de parvenir à visualiser par des graphes les données syntaxiques extraites d'un corpus. Le corpus constitué est une archive de flux rss du Monde. Pour pouvoir en exploiter le contenu il est proposé de d'extraire les éléments strictement textuels du corpus. L'étape suivante sera l'analyse syntaxique de ces textes en utilisant les logiciels Cordial et Treetagger, et d'enobserver les différences de résultats. Avant l'obtention de graphes de visualisation, il va falloir formater les résultat au format Xml. On va choisir certains patrons syntaxiques à observer comme un adjectif suivi d'un nom et formater à nouveau le résultat dans un format Xml de représentations de graphes GraphML. La dernière étape sera de transformer ces fichiers GraphML pour les lire dans le logiciels de graphes Pajek.

Appel des programmes

Voici un exemple des étapes à suivre avec les commandes terminales passées pour réaliser le travail perl extractionRSS.pl /2008 janvier.txt
//Treetagger
perl txt-treetagger.pl janvier.txt janvier.tag.txt
perl treetagger2xml.pl janvier.tag.txt janvier.tag.xml
perl treetaggerxml2patron.pl janvier.tag.xml janvier.tag.patron.txt
perl patron2gml.pl janvier.tag..patron.txt janvier.tag.gml.xml
perl gml2pajek.pl janvier.tag.gml.xml janvier.tag.pajek
//cordial
Résultat dutraitement par cordial: janvier.cnr
perl cordialTOxml.pl janvier.cnr à pour sortie: janvier.cordial.xml
java org.apache.xalan.xslt.Process -in janvier.cordial.xml -xsl NomPrepNom.xsl -out janvier.cordial.patron
perl patron2gml.pl janvier.cordia.patron.txt janvier.cordial.gml.xml
perl gml2pajek.pl janvier.cordial.gml.xml janvier.cordial.pajek

Boîtes à outils

  1. RSS -> Texte
  2. Texte -> Texte étiqueté syntaxiquement
    • Version Treetagger
      1. Texte étiqueté par Treetagger -> XML
      2. Xml -> Liste d'occurences de patrons syntaxiques fixé
    • Version Cordial
      1. Cordial.src -> XML
      2. cordial XML -> Liste d'occurences de patrons syntaxiques fixé
  3. Listes d'occurences -> GraphML
  4. GraphML -> Pajek

Tableau des Programmes

Script Fonction description/commentaire
extactionRSS.pl Extrait le contenu de la balise description entree: fichier xml sortie: fichier texte
txttreetagger.pl Appel le logiciel treetagger étiquette le fichier texte en entrée sortie:fichier taggé
treetaggerxml2patronNOMADJ.pl Patron Nom Adj Donne les occurence du patron dans le fichier taggé XML
treetaggerxml2patronNOMNOM.pl patron Nom Nom Donne les occurence du patron dans le fichier taggé XML
treetaggerxml2patronNOMPREPNOM.pl patron Nom Préposition Nom Donne les occurence du patron dans le fichier taggé XML
treetagger2xml.pl Formate en XML Transforme un fichier étiqueté par treetagger en balises XML
NOMADJ.xsl Patron Nom Adj Donne les occurence du patron dans le fichier taggé cordial en XML
NOMNOM.xsl patron Nom Nom Donne les occurence du patron dans le fichier taggé cordial en XML
NOMPREPNOM.xsl patron Nom Préposition Nom Donne les occurence du patron dans le fichier taggé cordial en XML
patron2gml.pl formate en GML Transforme les occurence de patron en graphe
gml2pajek.pl formate pour le logiciel Pajek Adapte le graphe au format d'entrée du logiciel de visualisation Pajek
cordial2xml.pl formate en XML Transforme un fichier .cnr de patron en balises XML
GraphML2pajek.xsl alternative à gml2pajek.pl Transforme le graphe au format d'entrée du logiciel de visualisation Pajek