Boîte à Outils 3

by Anna ANDRYCH & Marie SADOU

ETAPE 4 : requêtes XPath sur les fichiers XML issus de TREE-TAGGER


OBJECTIF : extraction des patrons via TREE-TAGGER.

Un moyen d'extraire des patrons issus des fichiers XML de sortie de TREE-TAGGER est d'émettre des requêtes XPath. Pour réaliser ceci, nous avons eu recours à un logiciel nommé XML-COOKTOP. En plus de pouvoir émettre des requêtes XPath dans COOKTOP, on peut également y insérer des feuilles de style XSLT(une pour chaque patron) afin d'afficher le résultat dans un navigateur.


POUR LA RUBRIQUE CINEMA :

1. Extraction des patrons NOM - NOM.

1.a. Requêtes XPath permettant d'extraire les patrons NOM - NOM issus des fichiers XML de TREE-TAGGER :

  • values:(//element[./data[contains(text(),'NOM')]]/following-sibling::element[1][./data[contains(text(),'NOM')]]/data[3]|//element[./data[contains(text(),'NOM')]]/preceding-sibling::element[1][./data[contains(text(),'NOM')]]/data[3])


  • Voici le fichier : cooktop-cinemaNN-values.txt
  • nodes:(//element[./data[contains(text(),'NOM')]]/following-sibling::element[1][./data[contains(text(),'NOM')]]/data[3]| //element[./data[contains(text(),'NOM')]]/preceding-sibling::element[1][./data[contains(text(),'NOM')]]/data[3])


  • Voici le fichier : cooktop-cinemaNN-nodes.txt



    1.b. Feuille de style XSLT :     stylesheetNN.xsl





    1.c. Résultats obtenus grâce à COOKTOP :

    Afin d'obtenir les résultats souhaités, il convient d'enregistrer les feuilles de style XSLT une fois qu'on les a insérées dans COOKTOP. De plus, une fois que les patrons sont extraits, il est possible de les enregistrer en cliquant sur l'onglet XML puis Run XSLT and save to file.... On obtient alors un fichier au format txt contenant la liste des patrons extraits. Enfin, il faut supprimer la première ligne de ces fichiers : <?xml version="1.0" encoding="UTF-16"?>, puiqu'elle ne sert à rien !


    D'une part, on obtient un résultat dans l'onglet intitulé result de COOKTOP :




    D'autre part, on obtient un résultat dans l'onglet result(html) qui est une sorte de simulation d'affichage sur un navigateur internet.



    Voici le résultat obtenu au format txt une fois la sortie enregistrée (en cliquant sur l'onglet XML puis Run XSLT and save to file...) : cooktop-cinemaNN-resultHTML.txt



    2. Extraction des patrons NOM - ADJECTIF :

    2.a. Requêtes XPath permettant d'extraire les patrons NOM - ADJECTIF issus des fichiers XML de TREE-TAGGER :

  • values:(//element[./data[contains(text(),'NOM')]]/following-sibling::element[1][./data[contains(text(),'ADJ')]]/data[3]|//element[./data[contains(text(),'ADJ')]]/preceding-sibling::element[1][./data[contains(text(),'NOM')]]/data[3])


  • Voici le fichier : cooktop-cinemaNA-values.txt
  • nodes:(//element[./data[contains(text(),'NOM')]]/following-sibling::element[1][./data[contains(text(),'ADJ')]]/data[3]|//element[./data[contains(text(),'ADJ')]]/preceding-sibling::element[1][./data[contains(text(),'NOM')]]/data[3])


  • Voici le fichier : cooktop-cinemaNA-nodes.txt



    2.b. Feuille de style XSLT :   stylesheetNA.xsl




    2.c. Résultats obtenus grâce à COOKTOP

    Afin d'obtenir les résultats souhaités, il convient d'enregistrer les feuilles de style XSLT une fois qu'on les a insérées dans COOKTOP. De plus, une fois que les patrons sont extraits, il est possible de les enregistrer en cliquant sur l'onglet XML puis Run XSLT and save to file.... On obtient alors un fichier au format txt contenant la liste des patrons extraits. Enfin, il faut supprimer la première ligne de ces fichiers : <?xml version="1.0" encoding="UTF-16"?>, puiqu'elle ne sert à rien !


    D'une part, on obtient un résultat dans l'onglet intitulé result de COOKTOP.




    D'autre part, on obtient un résultat dans l'onglet result(html) qui est une sorte de simulation d'affichage sur un navigateur internet.



    Voici le résultat obtenu au format txt une fois la sortie enregistrée (en cliquant sur XML puis sur Run XSLT and save to file...) : cooktop-cinemaNA-resultHTML.txt




    POUR LA RUBRIQUE CULTURE :

    1. Extraction des patrons NOM - NOM :

    1.a. Requêtes XPath permettant d'extraire les patrons NOM - NOM issus des fichiers XML de tree-tagger :

  • values:(//element[./data[contains(text(),'NOM')]]/following-sibling::element[1][./data[contains(text(),'NOM')]]/data[3]|//element[./data[contains(text(),'NOM')]]/preceding-sibling::element[1][./data[contains(text(),'NOM')]]/data[3])


  • Voici le fichier : cooktop-cultureNN-values.txt
  • nodes:(//element[./data[contains(text(),'NOM')]]/following-sibling::element[1][./data[contains(text(),'NOM')]]/data[3]|//element[./data[contains(text(),'NOM')]]/preceding-sibling::element[1][./data[contains(text(),'NOM')]]/data[3])


  • Voici le fichier : cooktop-cultureNN-nodes.txt



    1.b. Feuille de style XSLT :     stylesheetNN.xsl




    1.c. Résultats obtenus grâce à COOKTOP :

    Afin d'obtenir les résultats souhaités, il convient d'enregistrer les feuilles de style XSLT une fois qu'on les a insérées dans COOKTOP. De plus, une fois que les patrons sont extraits, il est possible de les enregistrer en cliquant sur l'onglet XML puis Run XSLT and save to file.... On obtient alors un fichier au format txt contenant la liste des patrons extraits. Enfin, il faut supprimer la première ligne de ces fichiers : <?xml version="1.0" encoding="UTF-16"?>, puiqu'elle ne sert à rien !


    D'une part, on obtient un résultat dans l'onglet intitulé result de COOKTOP.




    D'autre part, on obtient un résultat dans l'onglet result(html) qui est une sorte de simulation d'affichage sur un navigateur internet.




    Voici le résultat obtenu au format txt une fois la sortie enregistrée (en cliquant sur XML puis sur Run XSLT and save to file...) : cooktop-cultureNN-resultHTML.txt



    2. Extraction des patrons NOM - NOM :


    2.a Requêtes XPath permettant d'extraire les patrons NOM - NOM issus des fichiers XML de tree-tagger :

  • values:(//element[./data[contains(text(),'NOM')]]/following-sibling::element[1][./data[contains(text(),'ADJ')]]/data[3]|//element[./data[contains(text(),'ADJ')]]/preceding-sibling::element[1][./data[contains(text(),'NOM')]]/data[3])


  • Voici le fichier : cooktop-cultureNA-values.txt
  • nodes:(//element[./data[contains(text(),'NOM')]]/following-sibling::element[1][./data[contains(text(),'ADJ')]]/data[3]|//element[./data[contains(text(),'ADJ')]]/preceding-sibling::element[1][./data[contains(text(),'NOM')]]/data[3])


  • Voici le fichier : cooktop-cultureNA-nodes.txt



    2.b. Feuille de style XSLT :   stylesheetNA.xsl




    2.c. Résultats obtenus grâce à COOKTOP :

    Afin d'obtenir les résultats souhaités, il convient d'enregistrer les feuilles de style XSLT une fois qu'on les a insérées dans Cooktop. De plus, une fois que les patrons sont extraits, il est possible de les enregistrer en cliquant sur l'onglet XML puis Run XSLTan and save to file.... On obtient alors un fichier au format txt contenant la liste des patrons extraits. Enfin, il faut supprimer la première ligne de ces fichiers : <?xml version="1.0" encoding="UTF-16"?>, puiqu'elle ne sert à rien !


    D'une part, on obtient un résultat dans l'onglet intitulé result de COOKTOP.



    D'autre part, on obtient un résultat dans l'onglet result(html) qui est une sorte de simulation d'affichage sur un navigateur internet.



    Voici le résultat obtenu au format txt une fois la sortie enregistrée (en cliquant sur XML puis sur Run XSLT and save to file...) : cooktop-cultureNA-resultHTML.txt



    PROBLEMES :

    Nous avons eu quelques difficultés au tout début avec COOKTOP. Tout d'abord, il a fallu se familiariser avec l'éditeur XML-COOKTOP. De plus, étant donné que nous n'avions pas mis les lignes correspondantes à l'étiquetage avec TREE-TAGGER au bon endroit dans le script de la Boîte à Outil 2, nous obtenions en sortie des fichiers au format XML mais qui n'étaient pas bien formés. Ainsi, une fois ces problèmes résolus, nous avons pu travailler sur des fichiers XML bien formés et donc sur lesquels les requêtes XPath fonctionnaient correctement.

    Par ailleurs, nous avons du faire de nombreuses modifications sur les feuilles de style XSL afin d'obtenir le résultat souhaité.
    Enfin, afin de mener à bien cette Boîte à Outils 3, il nous a été fondamental de maîtriser les langages XPath ainsi que XSL et XML. (le suivi du cours de Documents Structurés avec M. Fleury en parallèle nous a été d'une grande aide)