Plurital - Projet EncadréBoîte à outils 2009 |
Boîte à outils 3
Le but de cette partie est de constitué deux fichiers de patrons avec des couples NOM-ADJ(ectif) à partir des articles extraits du journal Le Monde pour chacuns des deux fichiers de sortie de Bao2. Au fichier xml de la sortie de la Bao2 avec Treetagger est ajoutée une feuille de style adapté à l'arborescence du fichier. Le nom du fichier de la feuille de style est fs_sortie_textbrut_treetagger_nom_adj.xsl. Elle sert à extraire les couples NOM-ADJ du fichier Sortie_Bao2_Treetagger2XML.xml et les sauvegarder dans un fichier texte Sortie_Bao3_Treetagger_nom_adj.txt. Ce dernier sera utiliser dans la Bao4 pour dessiner un graphe avec patron2graphe.exe. Ainsi, la première partie de Bao3 est réalisée. Pour la partie de Bao3 avec Cordial, on utilise le texte extrait, étiqueté avec Cordial et un script Perl pour créer le fichier avec des couples NOM-ADJ. Tous les termes des catégories du mot qui sont présents dans Cordial, sont enregistrés dans le fichier cordial__termes.txt. Toutes les combinaisons de couple NOM-ADJ qui sont analysées avec Cordial, sont placées dans cordial__patrons.txt. Analyse des résultats: L'abréviation « adjfs » désigne les adjectifs provenant de nom, mais aussi les noms de famille. Entre les deux fichiers de sortie de cette étape, celui avec Treetagger et celui avec Cordial, il y a une différence de 5173 lignes en tout. Cela vient du fait qu'il existe de faux couples NOM-ADJ dans la sortie de Bao3 avec le Treetagger. Ce sont par exemple des couples dont un élément est un nom propre et l'autre un article défini (l', la, le, les), un titre (M., Mme, Melle) ou un autre nom propre. Certain noms propres sont aussi présents dans la sortie Bao3 de Cordial comme « Vladimir Poutine » ou « Qeen Mary II », qui ne sont pas du tout des couples NOM-ADJ. L'explication des erreurs produites de Treetagger est la suivante:
Les erreurs de reconnaissance dans la sortie de Cordiale sont liées à:
En conclusion: Il existe le problème de reconnaissance des noms propres rares avec les deux méthodes de traitement. Les résultats obtenus avec Cordial contiennent moins de faux couples NOM-ADJ, tandis qu'avec le Treetagger il y a en plus des erreurs avec les articles définis et des pronoms personnels.
Résultats de Bao3 : Manipulations avec Cooktop : fig1, fig2 et fig3 Feuille de style de Bao2 avec Treetagger : fs_Sortie_Bao3_Treetagger_affichage.xsl Sortie Bao2 de Treetagger sans feuille de style : Sortie_Bao2_Treetagger2XML.xml Sortie Bao2 de Treetagger avec la feuille de style : Sortie_Bao2_Treetagger2XML_style.xml Feuille de style de Bao3 avec Treetagger : fs_sortie_textbrut_treetagger_nom_adj.xsl Sortie de Bao3 de Treetagger : Sortie_Bao3_Treetagger_nom_adj.txt Script d'extractions des patrons avec Cordial : bao3_extraire_patron_cordial.pl Termes dans Cordial : cordial__termes.txt Choix de patron NOM-ADJ : cordial__patrons.txt Sortie de Bao3 avec Cordial : Sortie_Bao3_Cordial_nom_adj.txt
|
|
© Ginka Yankova 2009 |