1. Une arborescence de Fils RSS: Un corpus de journal le monde pour l'année 2008
2. Tokenise-fr.pl: C'est un programme qui permet de segmenter le texte en mots, la sortie de ce programme (Output) sera lentrée (Input) de Tree-tagger.exe.
perl tokenise-fr.pl textin
3.Tree-tagger.exe : C'est un programme d'étiquetage qui a comme entrée un fichier paramétré qui est la sortie de programme Tokenise-fr.pl, le fichier à étiqueter et le nom du fichier de sortie.
perl tree-tagger [options] parametres textein texteout
4.Treetagger2xml.pl: Ce programme transforme la sortie de Treetagger en format XML.
Pour appliquer l'étiquetage avec Treetagger, il faut tout d'abord extraire le contenu textuel des balises Description et Title dans un fichier texte (.txt) puis segmenter ce texte en mots en utilisant Tokenise-fr.pl. Le résultat de sortie de treetagger est un fichier (.txt) et pour la raffiner on applique Treetagger2xml.pl affin d'avoir une sortie XML.
En fait, on a beaucoup des choix pour réaliser cette boite à outil qu'on peut les classer selon deux méthodes:
1.La première méthode consiste à extraire le contenu textuel de chaque balise description ou title et on applique directement l'étiquetage avec treetagger afin d'avoir une sortie XML. Enfin, on concatène ces fichiers dans un seul fichier XML unique qui va être la sortie de bao2. Dans ce cas il faut enlever l'entéte de fichier XML avant la concaténation.
2.La 2éme méthode consiste à extraire tous les contenus textuels de toutes les balises dans un seul fichier (.txt) puis nous appliquons l'étiquetage avec Treetagger afin d'avoir un fichier XML étiqueté.
J'ai choisi d'utiliser la 2ème méthode donc j'extrais le contenu textuel de chaque rubrique dans un fichier puis j'applique l'étiquetage avec Treetagger sur chaque fichier afin d'avoir comme sortie deux fichier XML qui contiennent l'étiquetage de chaque rubrique.
Voici les opérations à réaliser:
1. Effectuer les mêmes opérations réalisées dans la premiére boite à outils afin d'avoir deux fichiers (.txt) qui contiennent le contenu textuel de chaque rubrique.
2. Segmenter chaque texte en mots avec Tokenise-fr.pl
3. Etiqueter chaque texte segmenté avec Treetagger
4. Convertir les 2 résultats de sortie en 2 fichiers XML avec Treetagger2xml.pl
1. Une arborescence de Fils RSS: Un corpus de journal le monde pour l'année 2008
2. Cordial: Programme d'étiquetage en mode graphique qui a comme entrée un fichier texte qui peut être non segmenter.
Pour appliquer l'étiquetage avec Cordial, il faut extraire le contenu textuel afin de faire l'étiquetage manuellement.
Les opérations à réaliser:
1. Effectuer les mêmes opérations réalisées dans la premiére boite à outil afin d'avoir deux fichiers (.txt) qui contiennent le contenu textuel de chaque rubrique.
2. Effectuer l'étiquetage avec Cordial