Boîte à outils 3
Présentation
Quant à la Boîte à outils 3, il s'agit
de travailler sur l'extraction de patrons syntaxiques à
partir de la sortie digérée par les parseurs
présentés plus haut.
Ici, nous nous sommes intéressées au patron
NOM ADJ (postposition de
l'adjectif dans le SN).
Au moins deux solutions s'offrent à nous pour effectuer ce
traitement:
- l'utilisation d'un script Perl;
- l'utilisation de requêtes XPath,
conjointement à une feuille de style Xslt.
Extraction de patrons avec Tree-tagger
Pourquoi XPath?
Because the path to success has many potholes, et XPath nous permet de les
éviter!
En effet, puisque l'on a obtenu une sortie au format XML à partir de
l'étiquetage par TreeTagger,
XPath ne peut ici
qu'être
fort approprié.
Le document XML est mis
en forme à l'aide d'une feuille de style Xslt, décrivant une
suite de règles s'appliquant sur les noeuds
ciblés -porteurs de l'information sur les
catégories syntaxiques-, qui contiennent donc des
requêtes Xpath.
On veut que le fichier soit présenté comme suit:
NOM ADJ
NOM ADJ
NOM ADJ
...
La feuille de style ici employée a deux états:
Extraction de patrons avec Cordial
Il s'est agi d'appliquer à la sortie Cordial
un script
Perl, lequel
prend en arguments la sortie de l'étiquetage et un fichier
listant les patrons syntaxiques à extraire.
On a en sortie un fichier
au format texte, de structure analogue
à notre sortie obtenue avec les requêtes Xpath sur la sortie Tree-Tagger.
Pour s'amuser un peu, parce que dans la vie il faut bien rire, on a
écrit un petit script
cordial2xml.pl
qui
transforme la sortie de l'étiquetage
Cordial en document
XML
structuré de la même
façon que notre sortie
Tree-Tagger. Cela nous permettrait ensuite d'extraire les
patrons avec la feuille de style
Xslt.
Dans ce cas, on en viendrait à extraire de la même
façon les patrons des fichiers parsés par Tree-Tagger et
par Cordial.