Accueil Boîte à outil 1 Boîte à outil 2 Boîte à outil 3 Boîte à outil 4

Boîte à outil 3: Extraction de tokens

L'objectif de l'extraction de tokens

A l'aide de programmes perl qui utilisent comme arguments un patron et un fichier de texte étiqueté soit par Tree tagger soit par Cordial, on extrait des tokens qui seront ensuite choisi selon leur pertinence, pour créer un lexique ou pour alimenter une base de donnée pour des lexiques multilingues.

Tree Tagger

Pour extraire des tokens on utilise ce script perl qui prend en entrée deux arguments: un fichier étiqueté par Tree Tagger et un fichier de patrons morphosyntaxiques pour retrouver ici tous les noms suivis d'un adjectif. En appliquant ce programme aux fichiers réalisés dans les précédentesboîtes à outils on obtient cette liste de candidats termes.

Cordial

Avec un nouveau programme perl adapté au fichier de sortie de Cordial et un autre fichier de patrons morphosyntaxiques qui extrait (grâce à une expression régulière) tous les noms communs suivis d'un adjectif, on obtient alors ce fichier.