Boîte à outils 2
Il s'agit de produire un étiquetage morpho-syntaxique en s'appuiyant sur les données textuelles extraites dans l'arborescence des fils RSS de la boîte à outils 1.
Il existe pour cela deux méthodes différentes décrites ci-dessous:
1. Etiquetage via Cordial: en sortie, on obtient un fichier texte ayant l'allure de 3 colonnes (forme, lemme, catégorie).
2. Etiquetage via TreeTagger: on modifie le script de la BàO1 pour extraire en sortie un fichier XML.
Schéma:
CORDIAL
SCRIPT:
On convertit d'abord le fichier texte du résultat de la BàO1 en iso latin. Puis, on ouvre le fichier dans Cordial et on modifie les paramètres pour étiqueter le fichier selon l'interface graphique suivante:
RESULTATS:
• En format cnr: Cliquez-ici
TREETAGGER
SOLUTION 1:
SCRIPT:
On a intégré TreeTagger dans notre script précédent.
Téléchargement du script en format perl: Cliquez-ici
RESULTATS:
• En format txt et xml: Cliquez-ici
SOLUTION 2:
SCRIPT:
On a intégré TreeTagger dans notre script précédent.
Téléchargement du script en format perl: Cliquez-ici
RESULTATS:
• En format txt et xml: Cliquez-ici