Objectif
L'objectif
de cette partie est l'étiquetage automatique par TreeTagger et
semi-automatique par Cordial des fichiers texte créés précédemment.
L'étiquetage
par TreeTagger requiert des fichiers en UTF-8 et produit des fichiers
au format XML alors que Cordial travaille avec des fichiers texte en
iso-latin-1 pour générer des fichiers .cnr.
Intégration de Treetagger
Un
sous-programme d'étiquetage est appelé au sein de la procédure de
parcours, après la récupération, la conversion en UTF-8 et le nettoyage
du contenu textuel recherché.
Appel de la fonction utilisant Treetagger
Ce sous-programme inclut un
programme de tokenisation adapté au français, un appel au programme
TreeTagger (version française, UTF-8) en ligne de commande ainsi qu'un
programme de transformation au format XML du résultat d'étiquetage.
Manipulation pour Cordial
Comme
Cordial ne peut traiter que des fichiers .txt en iso-latin-1 ayant une
taille inférieure à 2Mo, il faut reconvertir les fichiers précédemment
créés en UTF-8 et les découper si nécessaire.
La conversion est ajoutée dans la procédure principale après l'ajout de la balise </file>.
Conversion pour Cordial et appel de la procédure de découpage
Le découpage se fait par le biais d'une procédure appelée à la fin de la procédure principale.
Procédure de découpage
Tous les scripts suivants sont commentés dans leur fichier source.
Script utilisant seulement des expréssions réguliéres
Pour télécharger le script cliquez ici :
Si vous voulez le visualiser cliquez ici :
Script utilisant XML::RSS
Pour télécharger le script cliquez ici :
Si vous voulez le visualiser cliquez ici :
Script utilisant XML::XPath
Pour télécharger le script cliquez ici :
Si vous voulez le visualiser cliquez ici :
Script utilisant LibXML
Pour télécharger le script cliquez ici :
Si vous voulez le visualiser cliquez ici :