Boîte A Outils 2
Objectif
La but de la BAO2 est de produire un étiquetage morphosyntaxique des données que l'on a extraites avec la BAO1.L'étiquetage va être réaliser de deux façons différentes:
Traitement
L'étiquetage avec Cordial
Il s'agit de prendre le fichier de sortie de la BAO1 "sortie.txt". Avant de générer le fichier de sortie, nous devions supprimer une ligne qui bloquait le déroulement de l'étiquetage. Une fois cette ligne supprimée , la sortie générée par Cordial, s'intitule "sortie_ligne-1.cnr".
Erreur obtenue dans Cordial avant la suppression de la ligne :
L'étiquetage avec Treetagger
Nous avons choisi de réaliser l'étiquetage en un coup sur le corpus complet:
Explication du script etiquetage.pl:
Ce script indépendant, prend en entrée le résultat de la BAO1 et affiche en sortie le fichier étiqueté. Cela permet un étiquetage manuel, à partir de la sortie de la BAO1.
Explication du script arbo_rss_tree.pl:
Ce script reprend le script arbo_rss.pl de la BAO1 en y ajoutant l'étape d'étiquetage.
Le script arbo_rss_tree.pl prend en argument le répertoire contenant les fils et produit en sortie trois fichiers :
- un fichier contenant le corpus extrait des fils RSS au format texte, intitulé sortie.txt
- un fichier contenant le corpus extrait des fils RSS au format XML, intitulé sortie.xml
- un fichier contenant l'étiquetage du corpus au format texte, intitulé resultat-etiquetage.txt.
Il est à noter que nous avons effectué une modification dans le fichier treetagger2xml.pl, programme qui utiliser la sortie treetagger et la convertit au format XML. En effet, nous avons supprimé les \n afin que les éléments soient sur une seule ligne. Cette organisation du XML est indispensable pour pouvoir utiliser le module XML::XPath. Nous avons également remplacé les "&" par "& #38" pour éviter des erreurs de formation du XML. Ce programme s'intitule treetagger2xml.pl
Nous pouvons observer que le fichier .xml alors obtenu est très lourd, puisqu'il contient tous les mots du corpus soigneusement étiquetés. (22 294ko)
Ce dernier fichier s'intitule resultat-etiquetage.txt.xml