ETIQUETAGE DU CONTENU DES FILS DE PRESSE
Etiquetage avec Tree-Tagger
Tree-Tagger est un étiqueteur morpho-syntaxique qui
s'utilise
en ligne de commande. Pour avoir un résultat qui contient la
forme,
la catégorie et la lemme, on lance la commande suivante:
./bin/tree-tagger.exe -token -lemma -no-unknown
./lib/french.par fichier_à_étiqueter
fichier_résultat
Avant de lancer Tree-Tagger il faut préparer le corpus.
L'entrée de
Tree-Tagger doit avoir un format spécifique - un mot par ligne.
En
outre, il y d'autres conventions à respecter concernant la
ponctuation.
Par exemple
s'amuser doit être
présenté sous forme
suivante
s'
amuser
L'étiquetage s'est fait à l'aide d'un
programme perl qui
parcout
l'arborescence pour trouver les fichiers auxquels on applique un
traitement pour les préparer à l'étiquetage, puis
il les étiquette
en fasant appel à Tree-Tagger.
Ce programme produit deux résultats:
- un fichier en
format texte qui contient le résultat d'étiquetage de
tous les
fichiers
- un fichier XML ayant le
même
contenu. Ce
fichier peut être aussi affiché avec une
feuille de style XSLT.
Etiquetage avec Cordial
Cordial
est un logiciel avec multiples fonctionnalités. Ici, il est
utilisé
comme l'étiqueteur morpho-syntaxique. A la différence de
Tree-Tagger, Cordial est utilisable avec une interface graphique.
Cela nécessite partager le traitement automatique en deux: avant
et
après Cordial. L'inconvéniant principal est le fait que
l'on ne
peut pas garder une trace évident des noms des fichiers
d'où
viennent les données textuelles (Cordial tente de les
interpréter
et cela donne des résultats illisibles).
La préparation s'est
fait avec un programme semblable au celui utilisé pour
Tree-Tagger.
Pourtant, Tree-Tagger et Cordial prennent comme entrée des
corpus
du format différents. L'entrée du Cordial est un texte
"normal"
comportant des phrases articulées par la ponctuation habituelle.
Pour un étiquetage efficace, il faut harmoniser les
données pour
qu'elles respectent les normes typographiques conventionnelles.
Voici le
code du
programme (qui n'est commenté que sur les points qui le
différencient du programme Tree-Tagger) et
le fichier
produit. Ce fichier a été étiqueté avec
Cordial. Pour avoir les résultats comparables à ceux
produits par Tree-Tagger, j'ai choisi les options suivants pour le
paramétrage:
La conversion du résultat de l'étiquetage au format XML
se fait aussi avec
un programme
perl.
Comme pour l'étiquetage avec Tree-Tagger, on peut
présenter deux résultats:
- un fichier
brut produit par Cordial
- un fichier
XML qui peut être affiché avec une
feuille de style XSLT.