extraction de patrons morpho-syntaxiques

L'objectif est d'extraire des fichiers étiquetés, toutes les séquences NOM PREP NOM. L'extraction se fera d'une part à l'aide des fichiers XML créés avec TreeTagger et d'autre part à l'aide des fichiers CNR de Cordial. 

1/ Extraction à partir des fichiers XML

Il s'agit d'abord de créer une requête XPATH permettant d'extraire les patrons de type NOM PREP NOM. Ceci se fera à l'aide du logiciel Cooktop. Ensuite la requête sera intégrée dans une feuille de style XSL. On pourra ainsi paramétrer l'affichage du fichier XML comme on le souhaite et aussi obtenir des résultats au format txt. 


Feuille de style:  feuille_de_style_NPN


Résultats au format xml:

Il s'agit des mêmes fichiers XML que ceux de la BAO 2 avec juste une ligne en plus.
Celle ci permet d'indiquer la feuille de style utilisée pour l'affichage. 

- A la une
- Société


Résultats au format txt:


- A la une
- Société



2/ Extraction à partir des fichiers CNR


Pour réaliser l'extraction, il suffit de se servir du script PERL mis au point pendant le cours, par Jean-Michel Daube et Serge Fleury. Le script a besoin en entrée, du fichier CNR et du fichier contenant le patron. La sortie est un ficher texte. Voici la commande tapée sur cygwin pour exécuter l'extraction du fichier Société:


$ perl bao3_cordial.pl SORTIE-bao2_cordial_societe.cnr patron > SORTIE-bao3_cordial_societe.txt

Script et patron:

bao3_cordial.pl
patron


Résultats:

- A la une
- Société