bag



BàO 3: Extraction de patrons




Pour extraire des patrons à partir des sorties produites à l'issue de BàO2, on utilise deux méthodes différentes :

- Extraction de patrons sur les sorties brutes de l'étiquetage Cordial via un script perl, technique de Mr Fleury.

- Extraction de patrons sur la sortie au format XML (TreeTagger) via un script perl utilisant la bibliothèque XML::XPath, technique de Mr Belmouhoub.



Méthode avec sortie Cordial


On utilise en entrée le fichier de sortie Cordial précédent au format CNR, ainsi qu'un fichier texte contenant les patrons syntaxiques pos.txt. Le script intitulé cordial_sf.pl permet de générer en sortie un fichier de résultats qui affiche toutes les suites de mots correspondants aux motifs spécifiés.

Les motifs à extraire sont les suivants :  

On lance le script  :

On obtient pour chaque rubrique
un fichier texte.


J'ai utilisé ce script pour l'année 2010, sur 15 rubriques (j'ai laissé de côté les rubriques à la une, politique).


patrons syntaxiques                  à télécharger

fichier cordial_sf.pl        à voir | à télécharger

fichier pos.txt                à voir | à télécharger


Méthode avec sortie TreeTagger



On utilise en entrée le fichier de sortie TreeTagger précédent au format XML, ainsi qu'un fichier texte contenant les patrons syntaxiques (patterns.txt). Le script intitulé baO3_treetagger.pl utilise des requêtes XPath pour extraire les motifs recherchés.

Les motifs à extraire sont les suivants :  

On lance le script  :

On obtient pour chaque rubrique un fichier texte.


J'ai utilisé ce script pour l'année 2010, sur 14 rubriques (j'ai laissé de côté les rubriques à la une, politique, société).

patrons syntaxiques                         à télécharger

fichier bao3_treetagger.pl    à voir | à télécharger

fichier patterns.txt                à voir | à télécharger

Bascarane Lydia & Dubremetz Marie - © 2011