Objectif de la BàO3
Boîte à Outils 3 concerne l'extraction de patrons syntaxiques à partir de résultats de la BàO2.
On construit une liste de patrons à partir des contenus textuels des fils traités.
En sortie on aura une liste de patrons au forme de fichier *.txt. Cette liste sera le point d'entrée de la BàO4.
Extraction de patron avec Cordial
On applique le script Perl (pgm.pl), lequel prend en arguments la sortie de l'étiquetage et un fichier lisant les patrons syntaxiques à extraire. Il doit être accompagné d'un fichier (patrons.txt) contenant les motifs qu'on souhaite extraire.
Sur Cygwin, lors de l'execution, il faut préalablement convertir l'encodage (depuis la console) à l’aide de la commande: dos2unix.exe nom_fichier_a_convertir.txt
En sortie on aura de fichier texte qui sera lui même l'entrée de la serie 4 de la Boite à Outils.
Résultats sur la rubrique traitée:
nom adj, (pour la rubrique A la une
ici)
Extraction de patron avec Treetagger - avec XPATH
- Ecrire une requête pour extraire les éléments correspondant au patron. On construit une feuille de styles XSLT pour obtenir les listes de patrons au format texte.
(./data[contains(text(),'NOM')])
and
(following-sibling::element[1][./data[contains(text(),'ADJ')]])
On cherche parmi les éléments contenant la chaîne NOM, ceux qui sont précédés juste avant par un élément contenant la chaîne ADJ.
(./data[contains(text(),'PREP') or contains(text(),'PRP')])
and
(preceding-sibling::element[1][./data[contains(text(),'NC')
or
contains(text(),'NOM')]])
and
(following-sibling::element[1][./data[contains(text(),'NC')
or
contains(text() ,'NOM')]])">
On cherche parmi les élément contenant la chaîne PRP, ceux qui sont précédés et suivis par un élément contenant la chaîne NOM.
- Les requêtes lancées sur Cooktop ou XML Copy Editor
(requete pour
NOM.ADJ)
Résultat
Résultats sur la rubrique traitée:
nom adj, (pour la rubrique A la une: ici)