L'objectif est de construire une liste des patrons NOM ADJ/NOM NOM/NOM PREP NOM à partir des sorties produites de la BàO 2.
a) Extraction de patrons sur les sorties «brutes» de l’étiquetage Cordial via un script perl.
b) Extraction de patrons sur la sortie au format XML (Treetagger) via un script perl utilisant la bibliothèque XML::XPath.
c) Extraction de patrons sur la sortie au format XML (Treetagger) via une requête XPath dans une feuille de styles XSLT pour construire la liste des patrons.
Afin d’analyser la sortie produite à l’issue de BàO 2 via Cordial, nous utilisons un script préalablement fourni pour traiter nos données. Nous avons besoin aussi de créer un fichier contenant de patrons à extraire. (voir pos.txt). |
Extrait de résultat : |
-Extraction des patrons via requête XPATH
La requête XPATH fournie propose deux méthodes séparés par I que l'on traduite par "OU".
values:
(//element[./data[contains(text(),'NOM')]]/following-sibling::element[1][./data[contains(text(),'ADJ')]]/data[3])|(//element[./data[contains(text(),'ADJ
-Explications requête :
(//element[./data[contains(text(),'NOM']] :
Lors du parcours de l'arborescence, cette instruction va chercher le noeud DATA qui contient NOM
/following-sibling::element[1] [./data[contains(text(),'ADJ')]]/data [3] )) :
Instruction qui va chercher le "frère" de l'élément 1 à condition qu'au niveau DATA contient ADJ.
La formulation de la deuxième réquête est équivalente à la différence que l'on recherche les éléments ADJ, ceux qui sont précédés juste avant par un élément contenant la chaîne NOM, et l'on affiche le 3ème noeud fils DATA (mot)
Téléchargez le script