Boîte à outils



Cordial


Cette première methode consiste à l'extraction via Cordial de patrons sur les sorties format texte brut obtenues dans "Boîte à outils 2". On utilise un script alternatif proposé par Serge Fleury, que nous avons renommé extraction-patrons-Cordial.pl. Ce script prend comme argument un fichier de patrons, contenant un seul patron; dans notre cas nous avons créé deux fichiers de patrons:


Le script et les fichiers de patrons pour cette solution, sont disponibles en téléchargement ici.

Les résultats que nous avons obtenu grâce solution, peuvent être téléchargés en leur intégralité ici.


Treetagger-XML::Xpath


Dans un deuxième temps, on cherche à extraire cette fois-ci, des patrons syntaxiques sur les sorties xml obtenues avec Treetagger dans la "Boîte à outils 2". Pour ce faire, on utilise un autre script perl nommé: extraction-patrons-Treetagger_Xpath.pl, lequel fait appel à la bibliothèque "XML:Xpath", et un fichier de patrons: patterns.txt, qu'on défini d'après les patrons qui nous intéressent.

L'arborescence du fichier de tags en entrée du script d'extraction doit être celle produite par le script treetagger2xml.pl. Le nombre de motifs recherchés est laissé au libre choix de l'utilisateur. Dans notre fichier d'exemple nous avons deux motifs : "NOM PRP NOM" et "NOM ADJ". Le script stocke les résultats obtenus pour chaque motif dans un nouveau fichier. Ainsi, par exemple pour le motif "NOM ADJ" on aura un fichier nommé "res-extract-NOM_ADJ_ALAUNE.txt", spécifiant le patron et la rubrique.

Avant de lancer le script sur nos sorties, il a fallu faire un prétraitement pour que le script functionne correctement. En effet, nous avons dû enlever sur "Notepad ++" les retours à la ligne entre les balises (element) et (data) ainsi que les espaces pour obtenir le tout sur une seule ligne comme dans l'exemple:


Tag

On a choisi de lancer le script indépendamment de celui employé en BAO2 et de faire le traitement pour chaque fichier séparémment sur la ligne de commande comme on peut le voir sur l'image:


Tag

Toutefois, on a rencontré une difficulté dans le traitement du fichier d'input "ALAUNE" de l'année 2009, pour des raisons de mal-formation du document, qu'on a essayé de corriger sans succès. La taille du fichier nous a rendu la tâche impossible...

Tag

Toutes les ressources (input, output, script, complèments) pour la deuxième solution sont disponibles ici.


Xslt::XPath


Pour cette partie on prend comme fichier d'entrée le résultat du traitement sous TreeTagger réalisé en BAO2 et on crée une feuille de style XSLT selon les patrons syntaxiques qu'on cherche à obtenir.

On obtient deux résultats : le premier en html (xsl:output method="html") et le deuxième en txt (xsl:output method="text").


Sorties en html:


La feuille de style pour 'ADJ' suivi de 'NOM': ici et le résultat


La feuille de style pour 'NOM' suivi de 'ADJ': ici et le résultat


La feuille de style pour 'ADV' suivi de 'PRP':ici et le résultat


La feuille de style pour 'NOM' suivi de 'DET' suivi de 'NOM':ici et le résultat


La feuille de style pour 'NOM' suivi de 'PRP' suivi de 'NOM':ici et le résultat


Sorties en txt:


Note: si votre navigateur n'affiche pas correctement les résultats, essayez de changer l'encodage (utf-8) ça marche!

La feuille de style pour 'ADJ' suivi de 'NOM': ici et le résultat


La feuille de style pour 'NOM' suivi de 'ADJ': ici et le résultat


La feuille de style pour 'ADV' suivi de 'PRP': ici et le résultat


La feuille de style pour 'NOM' suivi de 'DET' suivi de 'NOM':ici et le résultat


La feuille de style pour 'NOM' suivi de 'PRP' suivi de 'NOM':ici et le résultat