Boîte à outils 2

Il s'agit de produire un étiquetage morpho-syntaxique en s'appuiyant sur les données textuelles extraites dans l'arborescence des fils RSS de la boîte à outils 1. Il existe pour cela deux méthodes différentes décrites ci-dessous:

1.  Etiquetage via Cordial: en sortie, on obtient un fichier texte ayant l'allure de 3 colonnes (forme, lemme, catégorie).

2.  Etiquetage via TreeTagger: on modifie le script de la BàO1 pour extraire en sortie un fichier XML.

Schéma:



Schéma de la boîte 1


CORDIAL


SCRIPT:

On convertit d'abord le fichier texte du résultat de la BàO1 en iso latin. Puis, on ouvre le fichier dans Cordial et on modifie les paramètres pour étiqueter le fichier selon l'interface graphique suivante:



Cordial


RESULTATS:


• En format cnr: Cliquez-ici



TREETAGGER



SOLUTION 1:


SCRIPT:

On a intégré TreeTagger dans notre script précédent.


Téléchargement du script en format perl: Cliquez-ici


RESULTATS:


• En format txt et xml: Cliquez-ici



SOLUTION 2:


SCRIPT:

On a intégré TreeTagger dans notre script précédent.


Téléchargement du script en format perl: Cliquez-ici


RESULTATS:


• En format txt et xml: Cliquez-ici