Présentation |
Boîte à outil 1 |
Boîte à outil 2 |
Boîte à outil 3 |
Boîte à outil 4 |
La Boîte à outils 2 concerne l' étiquetage morpho-syntaxique des contenus textuels. Deux moyens d'étiquetages sont employés, l'un avec Tree-Tagger et l'autre avec Cordial.
Pour étiqueter les contenus textuelles des fils avec tree-tagger on utilise une ligne de commande sur le console cygwin. La ligne de commande est structurée de la manière suivante :
tree-tagger [options] <parametres> <textein> <texteout>
Le premier argument est le fichier paramètre. Le deuxième argument est le texte à étiqueter. Le troisième argument est le nom du fichier de sortie.
Le programme de nettoyage ainsi que la commande d'étiquetage ont été intégrés dans un programme parcours-arborescence-fichier.pl qui permet de parcourir une arborescence de fichiers et d’appliquer untraitement sur les fichiers rencontrés. L'étiquetage transforme les textes en format txt. Puisque les fichier de sorties devraient être au formant xml, dans le programme une fonction de reformatage est intégrée pour permettre la transformation des textes étiquetés qui sont au format .TXT en XML.
Les fichiers contenats les données textuelles extraites des balises de titre et de description sont étiquetés par cordiale par le paramétrage suivant
Exemple de sortie