extraction de patrons morpho-syntaxiques
L'objectif
est
d'extraire des fichiers étiquetés, toutes les
séquences NOM PREP NOM. L'extraction se fera d'une part
à
l'aide des fichiers XML créés avec TreeTagger et
d'autre
part à l'aide des fichiers CNR de Cordial.
1/ Extraction à
partir des
fichiers XML
Il s'agit d'abord de
créer une requête XPATH
permettant
d'extraire les patrons de type NOM PREP NOM. Ceci se fera à
l'aide du logiciel Cooktop.
Ensuite la requête sera intégrée dans
une feuille
de style XSL. On pourra ainsi paramétrer l'affichage du
fichier XML comme on le souhaite et aussi obtenir des
résultats
au format txt.
Feuille de style: feuille_de_style_NPN
Résultats au format xml:
Il s'agit des mêmes fichiers XML que ceux de la BAO 2 avec juste une ligne en plus.
Celle ci permet d'indiquer la feuille de style utilisée pour l'affichage.
- A la une
- Société
Résultats
au format txt:
- A la une
- Société
2/
Extraction à partir des fichiers CNR
Pour réaliser
l'extraction, il suffit de se servir du script PERL mis au point
pendant le cours, par Jean-Michel Daube et Serge Fleury. Le
script
a besoin en entrée, du fichier CNR et du fichier contenant
le
patron. La sortie est un ficher texte. Voici la commande
tapée
sur cygwin pour exécuter l'extraction du fichier
Société:
$ perl bao3_cordial.pl SORTIE-bao2_cordial_societe.cnr
patron
> SORTIE-bao3_cordial_societe.txt
Script
et
patron:
- bao3_cordial.pl
- patron