BàO 3: Extraction de patrons
Pour extraire des patrons à partir des sorties produites à l'issue de BàO2, on utilise deux méthodes différentes :
- Extraction de patrons sur les sorties brutes de l'étiquetage Cordial via un script perl, technique de Mr Fleury.
- Extraction de patrons sur la sortie au format XML (TreeTagger) via un script perl utilisant la bibliothèque XML::XPath, technique de Mr Belmouhoub.
Méthode avec sortie Cordial
On
utilise en entrée le fichier de sortie Cordial précédent au format CNR,
ainsi qu'un fichier texte contenant les patrons syntaxiques pos.txt. Le script
intitulé cordial_sf.pl
permet de générer en sortie un fichier de résultats qui affiche toutes
les suites de mots correspondants aux motifs spécifiés.
On lance le script :
On
obtient pour chaque rubrique
un fichier texte.
J'ai utilisé ce script pour l'année 2010, sur 15 rubriques (j'ai laissé de côté les rubriques à la une, politique).
patrons syntaxiques à télécharger
fichier cordial_sf.pl à voir | à télécharger
Méthode avec sortie TreeTagger
On utilise en entrée le fichier de sortie TreeTagger précédent au format XML, ainsi qu'un fichier texte contenant les patrons syntaxiques (patterns.txt). Le script intitulé baO3_treetagger.pl utilise des requêtes XPath pour extraire les motifs recherchés.
Les
motifs à extraire sont les suivants :
On lance le script :
On obtient pour chaque rubrique un fichier texte.
J'ai utilisé ce script pour l'année 2010, sur 14 rubriques (j'ai laissé de côté les rubriques à la une, politique, société).
patrons syntaxiques à télécharger
fichier bao3_treetagger.pl à voir | à télécharger