Boîte A Outils 3
Objectif
Obtenir, à partir des résultats de l'étiquetage de la boîte à outil 2, les listes des syntagmes correpondant aux patrons syntaxiques suivants :
DET-NOM-ADJ
NOM-PREP-NOM
Ces motifs ont été choisis après une étude approfondie du corpus à l'aide du logiciel Lexico 3. Nous avons pu observer la présence récurrente de ces motifs dans les thèmes naviguant autour de la crise financière. Il nous a alors paru essentiel de récolter ces motifs afin d'analyser au mieux le thème de la crise.
L'extraction de ces patrons peut se faire de trois manières différentes:
- La méthode Cordial, technique de Serge Fleury, demande un fichier de motifs et génère en sortie les motifs recherchés dans le texte spécifié
- La méthode Treetagger, technique de Rachid Belmouhoub, utilise le module XML : XPATH
- La méthode Xslt nous permet de générer les mots correspondant aux patrons. On applique sur le résultat de la BAO2 étiqueté avec treetagger, des feuilles de style Xslt, spécialement créées pour retrouver dans notre corpus, les motifs voulu.
Traitement
Méthode avec la sortie Cordial
En plus du fichier donné en entrée, (sortie_ligne-1.cnr), le script (cordial_sf.pl) demande un fichier de motifs à extraire, (pos.txt) et génère en sortie un fichier de résultats (motif_extrait.txt), qui affiche toutes les suites de mots correspondants aux motifs spécifiés.
Nous avons donc cherché les motifs suivants :
DET-NOM-ADJ
NOM-PREP-NOM
Résultats Cordial
Voici un extrait du résultat obtenu par le biais de la méthode Cordial:
Méthode avec la sortie Treetagger
Ce script, intitulé bao3_rb.pl, utilise des requêtes XPath pour extraire les motifs recherchés. Nous écrivons les résultats dans un fichier grâce à l'utilisation de la fonction "join". Petite modification par rapport à la version du script de Rachid, nous ne créons qu'un seul fichier de résultat pour nos deux motifs afin d'obtenir la concaténation de tous les contextes nous intéressant.
Le script utilise également un fichier contenant les motifs à extraire:
DET-NOM-ADJ
NOM-PREP-NOM
Résultats Treetagger
Voici un extrait de ce que nous obtenons par la méthode Treetagger:
Méthode Xslt
XSLT est un langage de transformation qui transforme un document XML en un autre type de document. XSLT utilise XPath pour parcourir un arbre XML.
Nous avons d'abord créé deux feuilles de style .xslt, qui s'appliquent au fichier resultat-etiquetage.txt.xml et qui vont générer en sortie deux fichiers, npn.txt et art_nom_adj.txt, dans lesquels nous pouvons trouver tous les mots correspondants au motif recherché.
Afin de générer cette sortie, nous avons utilisé AltovaXml avec la commande permettant de générer directement un fichier au format désiré, grâce à la commande suivante :
AltovaXML -xslt1 test.xslt -in test.xml -out testout.xml
Dans le fichier Xslt, il fallait faire bien attention de spécifier l'output, grâce à la méthode suivante :
<xsl:output method="text"/>
Cette méthode est plus contraignante car la génération du fichier de sortie via AltovaXml prend énormément de temps, étant donné la taille de notre corpus. C'est la raison pour laquelle nous ne vous afficherons ici, qu'une partie des résultats.
Résultats Xslt
Résultats au format texte
1er patron : Nom-Prep-Nom
Feuille Xslt:
Extrait du résultat dans le navigateur:
2nd patron : Art-Nom-Adj
Feuille Xslt
Extrait du résultat dans le navigateur:
Résultats au format html
Nous avons aussi crée des feuilles de styles .xslt, avec les mêmes motifs, mais qui nous permettent de générer une sortie structurée au format html.
Dans le fichier Xslt, il fallait alors spécifier un output html, grâce à la méthode suivante :
<xsl:output method="html"/>
La présentation est alors mise en forme et est intégrable très facilement dans un site web. Cette présentation pourrait être un complément du graphe lors de la création de notre web service. Elles se nomment art_nom_adj_html.xslt et npn_html.xslt.
1er patron : Nom-Prep-Nom
Feuille Xslt
Extrait du résultat dans le navigateur:
2nd patron : Art-Nom-Adj
Feuille Xslt
Extrait du résultat dans le navigateur: