PROJET BOITE A OUTILS
créé par Nadia Makouar & Maria Doganova
Langues O'


Extraction de patrons

Dans cette troisième étape, nous procédons à l'extraction de patrons syntaxiques à partir des fichiers taggés issues de la Boite à outils 2. Cette étape se fera en deux parties:

*Extraction de patrons sur les sorties brutes txt.
*Extraction de patrons sur les sorties au format xml.

Pour ce qui concerne la première partie, on utilisera un script perl écrit par J.M Daube, tandis que pour la deuxième, on s'aidera de requêtes Xpath.

Extraction avec le script Perl


Le script jmd.pl prend en entrée les fichiers taggés par Cordial. Bizarrement, ce programme ne marche pas sous l'émulateur Cygwin. Il faut donc le lancer via CygwinBeta20. Ce programme doit être accompagné d'un fichier contenant les motifs que l'on veut extraire patrons.txt.

Extraction avec les requêtes Xpath


Nous nous servons des fichiers xml traités par Treetagger et utilisons le logiciel Cooktop. Les requêtes sont ensuite intégrées dans une feuille de style.

La première requête extrait les patrons de la forme NOM-ADJ. Télécharger la feuille de style ici.
Voici le resultat au format txt du fichier "A_la_Une"

La deuxième requête extrait les patrons NOM PREP NOM. Voir la requête en xslt ici
Vous pouvez voir ce que donne cette requête (toujours pour "A_la_Une").