Boîte à Outils 2

On réalise, à partir du fichier texte obtenu précédemment, un étiquetage morpho-syntaxique des mots.
Pour ce faire, on utilise deux méthodes différentes :

- Etiquetage avec Cordial : Cordial est un programme payant, disponible uniquement pour Windows et qui possède une interface graphique.

- Etiquetage avec TreeTagger : TreeTagger est un programme gratuit qui fonctionne en ligne de commandes.


Schémas :






Cordial

On ouvre, dans Cordial, le fichier texte resultat_bao1.txt (Que l'on a d'abord convertit en fichier Windows).
On modifie les paramètres pour étiqueter le fichier texte selon l'interface graphique suivante :


On obtient un fichier au format cordial (CNR).

Résultat :

Fichier resultat_bao2_cordial.cnr [Voir] 3,7 MB





TreeTagger

On a intégré TreeTagger à notre script précédent.

Commande :


Script bao2.pl [Voir] [Télécharger] 2,8 kB

On obtient un fichier texte et un fichier XML.

Résultats :

• Fichier resultat_bao2_treetagger.txt [Voir] 3,4 MB

• Fichier resultat_bao2_treetagger.xml [Voir un extrait] [Télécharger] 1,3 MB