Etiquetage via Treetagger : sortie en un fichier XML
Etiquetage via Cordial : sortie un fichier texte avec 3 colonnes (forme, lemme, catégorie)
Les résultats se présentent ainsi : cette segmentation du corpus en mots consiste à identifier les mots qui le composent sous une forme verticale, où chaque mot est écrit sur une ligne séparée. Cet te opération permet de faciliter l'exploitation des textes, notamment pour y repérer automatiquement des formes lexicales ou effectuer des mesures sur le vocabulaire d'un texte. |
Les résultats produits sont identiques avec ceux précédemment associé avec son étiquetage. Le résultat de la catégorisation est toujours un fichier texte au format tabulé dans lequel chaque mot est représenté sur une ligne qui contient la forme de surface suivie de sa catégorie (2ème colonne) puis de son lemme (3ème colonne). Seules les formes qui appartiennent au lexique sont lemmatisées. Tous les autres reçoivent la valeur "unknown" qui indique que le lemme correspondant est inconnu. |
Pour obtenir les résultats de l’étiquetage de Treetagger en fichier xml, nous avons procéder dans un premier temps à l’encodage des résultats en UTF-8 : |
Pour obtenir un fichier xml bien formé, nous avons rajouté l’instruction suivante :
Au final, la création de fichier de sortie en format xml s’effectue par la ligne de commande :
L'entrée de ce programme est un fichier texte (.txt) qui contient les contenus textuels des balises title et description.
La table d'étiquetage de Cordial se présente ainsi :