Présentation

Boîte à outil 1

Boîte à outil 2

Boîte à outil 3

Boîte à outil 4

Boîte à outil 2

Objectif

La Boîte à outils 2 concerne l' étiquetage morpho-syntaxique des contenus textuels. Deux moyens d'étiquetages sont employés, l'un avec Tree-Tagger et l'autre avec Cordial.

Etiquetage avec tree-tagger

Pour étiqueter les contenus textuelles des fils avec tree-tagger on utilise une ligne de commande sur le console cygwin. La ligne de commande est structurée de la manière suivante :

tree-tagger [options] <parametres> <textein> <texteout>

Le premier argument est le fichier paramètre. Le deuxième argument est le texte à étiqueter. Le troisième argument est le nom du fichier de sortie.

Le programme de nettoyage ainsi que la commande d'étiquetage ont été intégrés dans un programme parcours-arborescence-fichier.pl qui permet de parcourir une arborescence de fichiers et d’appliquer untraitement sur les fichiers rencontrés. L'étiquetage transforme les textes en format txt. Puisque les fichier de sorties devraient être au formant xml, dans le programme une fonction de reformatage est intégrée pour permettre la transformation des textes étiquetés qui sont au format .TXT en XML.

Le script

sortie format xml

Script intégral

Etiquetage avec tree-tagger

Les fichiers contenats les données textuelles extraites des balises de titre et de description sont étiquetés par cordiale par le paramétrage suivant

Interface cordial

Exemple de sortie