Boîte à Outils n°2
Objectifs
BAO 2 La BAO2 permet de génénrer un étiquetage morphosyntaxique du contenu textuel extrait grâce à la BAO1.
Les mots vont être associés à une catégorie syntaxique et un lemme grâce à deux outils :
- - Cordial, logiciel payant disponible sous windows avec interface graphique.
- - TreeTagger, logiciel gratuit qui fonctionne grâce à un interprète de commandes.
Scripts
Le script utilisant TreeTagger crée 3 sorties distinctes, l'une étant en txt et les 2 autres en XML.
Cette boite à outils reprend la boite à outils 1 et fait l'étiquetage en plus après avoir créer les fichiers de sortie extrayant les parties désirées, les titres ainsi que les résumés.
La feuille de style est ajoutée directement dans le fichier de sortie treetagger comme vous pouvez le remarquer ci-dessus.
Visualiser un exemple de sortie
Pour l'étiquetage avec TreeTagger, nous créons un fichier txt annexe encodé en UTF8 qui reprend les titres et les résumés extraits. Lorsque notre fichier txt est créé, nous lançons le programme tokenise-fr.pl dessus.
Après le découpage effectué, TreeTagger.exe est lancé avec la partition french-utf8.par pour avoir un étiquetage UTF8.
Ces étiquetages sont ajoutés au fur et à mesure dans un fichier txt nommé "treetagger.txt".
Après cet étiquettage, nous lançons le programme treetagger2xml.pl sur ce fichier pour créer une sortie xml.
voici les lignes de commandes en question :
TreeTagger
TreeTagger est un programme d'étiquetage morpho-syntaxique qui a été développé à l'Université de Stuttgart. Il est très très utilisé pour la recherche. Le programme se base sur une approche probabiliste pour déterminer les catégories morpho-syntaxiques des tokens d'un texte (et non sur des règles), ce qui peut par contre parfois altérer sa précision (par rapport à Cordial, par exemple).
Le dossier "TreeTagger" fourni avec les scripts "Parcours-fils" contient un exécutable pour Windows, un fichier de paramètres pour le français et un tokéniseur. On l'a finalement fais tourner sous windows après pas d'essais sous Ubuntu =(
Toutefois, il constitue une ressource totalement gratuite qui peut être utilisée sur de nombreuses langues directement en ligne de commandes. Les résultats se présentent sous la forme :
- mot,
- catégorie,
- lemme
Pour exécuter le programme, il a fallu rajouter quelques lignes à la fin des scripts de parcours des fils RSS pour définir une procédure qui appelle TreeTagger (procédure lancée par le script à la toute fin, une fois les sorties crées) :
Cordial
Cordial est un logiciel de correction orthographique et grammaticale développée par la société Synapse.
Comme TreeTagger, il permet également de réaliser des étiquetages morpho-syntaxiques. L'étiquetage obtenu est assez efficace car il intègre à la fois un module de traitement statistique et un module basé sur des règles grammaticales.
L'utilisation de Cordial est relativement intuitive et les traitements sont rapides. Cependant, c'est un logiciel payant. Les résultats sont présentés sous la forme :
- mot,
- lemme,
- catégorie_grammaticale