Boîte à outils 3 : Extraction de patrons
  • Objectif:

Dans cette partie, on utilisera les fichiers étiquetés morpho-syntaxiquement de la boîte à outils 2 pour en extraire des listes de formes selon le patron choisi.

Nous avons choisi comme patron NOM – ADJ, c’est-à-dire que nous allons extraire toute terminologie nominale contenant la relation « nom – adjectif », ce patron morphosyntaxique est parmi les plus employés en extraction terminologique française.

Suite à la bao 2, nous avons récupéré en sortie deux fichiers aux extensions différentes. Deux méthodes d’extraction seront alors employées selon le format de texte à analyser : un script perl (pour la sortie texte) et une requête Xpath (pour la sortie XML). Les deux techniques d’étiquetage utilisées précédemment vont générer deux corpus aux formats différents.

  • Réalisation : Extraction de patrons avec la requête XPATH

Le fichier étiqueté par Treetagger nous permettra d’extraire les patrons morphosyntaxique à l’aide d’une feuille de style qui nous aidera à choisir les chemins ainsi que les valeurs des éléments souhaités, Ici nous cherchons à récupérer les couples de nœuds element et dont les catégories sont NOM-ADJ.

La requête XPATH est comme suit :


précédent<<suivant>>