Boîtes à outils pour le traitement des fils de presse

Egle Ramdani  (Master TAL, Paris 3)

EXTRACTION DES PATRONS MORPHOSYNTAXIQUES


A partir des fichiers étiquetés avec Tree-Tagger et Cordial on peut extraire des patrons morphosyntaxiques qui nous intéressent. Ici, j'ai extrait seulement un patron - Nom Prép Nom - qui devrait nous donner des noms utilisés avec un complement de nom (mais aussi les noms suivis d'un circonstentiel). Pour ce faire, j'ai utilisé le script fourni au cours.

Extraction à partir de l'étiquetage avec Tree-Tagger

Le script d'extraction a été intégré (avec quelques modifications) dans le script utilisé pour l'étiquetage. Cela nous donne un script qui nous permet de lancer l'etiquetage et l'extraction en même temps.
Le résultat est un fichier contenant tous les suites de mots correspondant au patron morphosyntaxique choisi (NOM PRP NOM).

Extraction à partir de l'étiquetage avec Cordial

Etant donné que Cordial ne fonctionne qu'avec une interface graphique, le script de traitement se présente en deux parties: avant Cordial et après Cordial. Pour extraire les patrons morphosyntaxiques j'ai récupéré le résultat de l'étiquetage obtenu en boîte à outils 2. L'extraction s'est fait avec le script d'extraction adapté aux résultats de Cordial qui donne un fichier contenant tous les suites de mots correspondant au patron morphosyntaxique choisi (N[A-Z]+ DETDPIG N[A-Z]+ et N[A-Z]+ PREP N[A-Z]+).