Boîtes à outils pour le traitement des fils de presse

Egle Ramdani  (Master TAL, Paris 3)

ETIQUETAGE DU CONTENU DES FILS DE PRESSE


Etiquetage avec Tree-Tagger

Tree-Tagger est un étiqueteur morpho-syntaxique qui s'utilise en ligne de commande. Pour avoir un résultat qui contient la forme, la catégorie et la lemme, on lance la commande suivante:

./bin/tree-tagger.exe -token -lemma -no-unknown ./lib/french.par fichier_à_étiqueter  fichier_résultat

Avant de lancer Tree-Tagger il faut préparer le corpus. L'entrée de Tree-Tagger doit avoir un format spécifique - un mot par ligne. En outre, il y d'autres conventions à respecter concernant la ponctuation.
Par exemple s'amuser doit être présenté sous forme suivante
s'
amuser

L'étiquetage s'est fait à l'aide d'un programme perl qui parcout l'arborescence pour trouver les fichiers auxquels on applique un traitement pour les préparer à l'étiquetage, puis il les étiquette en fasant appel à Tree-Tagger.


Ce programme produit deux résultats:

  1. un fichier en format texte qui contient le résultat d'étiquetage de tous les fichiers
  2. un fichier XML ayant le même contenu. Ce fichier peut être aussi affiché avec une feuille de style XSLT.

Etiquetage avec Cordial

Cordial est un logiciel avec multiples fonctionnalités. Ici, il est utilisé comme l'étiqueteur morpho-syntaxique. A la différence de Tree-Tagger, Cordial est utilisable avec une interface graphique. Cela nécessite partager le traitement automatique en deux: avant et après Cordial. L'inconvéniant principal est le fait que l'on ne peut pas garder une trace évident des noms des fichiers d'où viennent les données textuelles (Cordial tente de les interpréter et cela donne des résultats illisibles).

La préparation s'est fait avec un programme semblable au celui utilisé pour Tree-Tagger. Pourtant, Tree-Tagger et Cordial prennent comme entrée des corpus du format différents. L'entrée du Cordial est un texte "normal" comportant des phrases articulées par la ponctuation habituelle. Pour un étiquetage efficace, il faut harmoniser les données pour qu'elles respectent les normes typographiques conventionnelles. Voici le code du programme (qui n'est commenté que sur les points qui le différencient du programme Tree-Tagger) et le fichier produit. Ce fichier a été étiqueté avec Cordial. Pour avoir les résultats comparables à ceux produits par Tree-Tagger, j'ai choisi les options suivants pour le paramétrage:



La conversion du résultat de l'étiquetage au format XML se fait aussi avec un programme perl.
Comme pour l'étiquetage avec Tree-Tagger, on peut présenter deux résultats:
  1. un fichier brut produit par Cordial
  2. un fichier XML qui peut être affiché avec une feuille de style XSLT.