Objectif

L'objectif de cette partie est l'étiquetage automatique par TreeTagger et semi-automatique par Cordial des fichiers texte créés précédemment.

L'étiquetage par TreeTagger requiert des fichiers en UTF-8 et produit des fichiers au format XML alors que Cordial travaille avec des fichiers texte en iso-latin-1 pour générer des fichiers .cnr.

Intégration de Treetagger

Un sous-programme d'étiquetage est appelé au sein de la procédure de parcours, après la récupération, la conversion en UTF-8 et le nettoyage du contenu textuel recherché.


Appel de la fonction utilisant Treetagger

Ce sous-programme inclut un programme de tokenisation adapté au français, un appel au programme TreeTagger (version française, UTF-8) en ligne de commande ainsi qu'un programme de transformation au format XML du résultat d'étiquetage.

Manipulation pour Cordial

Comme Cordial ne peut traiter que des fichiers .txt en iso-latin-1 ayant une taille inférieure à 2Mo, il faut reconvertir les fichiers précédemment créés en UTF-8 et les découper si nécessaire.

La conversion est ajoutée dans la procédure principale après l'ajout de la balise </file>.


Conversion pour Cordial et appel de la procédure de découpage

Le découpage se fait par le biais d'une procédure appelée à la fin de la procédure principale.


Procédure de découpage

Tous les scripts suivants sont commentés dans leur fichier source.

Script utilisant seulement des expréssions réguliéres

Pour télécharger le script cliquez ici :

Si vous voulez le visualiser cliquez ici :

Script utilisant XML::RSS

Pour télécharger le script cliquez ici :

Si vous voulez le visualiser cliquez ici :

Script utilisant XML::XPath

Pour télécharger le script cliquez ici :

Si vous voulez le visualiser cliquez ici :

Script utilisant LibXML

Pour télécharger le script cliquez ici :

Si vous voulez le visualiser cliquez ici :

[haut de page]