Dans cette partie il s'agit
de parcourir l'ensemble de l'arboressence
à la recherche des fichiers fils, puis extraire le contenu des
balises "DESCRIPTION"
<description> CONTENU
</description>
et fourinir en resultat un fichier XML bien forme ou bien constitue
à partir du fichier resultat de cette forme avec
une feuille de style XSLT de cette forme
Pour se faire on s'est servit des differents script
fourini gracieusement par nos chers enseignants à savoir le
script de parcours
, en appliquant le script filteur
Pour extraire le contenu des balises en question,
et le script netoyeur
, pour enlever les caracteres speciaux et les remplacer par les
caracteres qu'il faut. tout
Ca en apportant les modifications
appropriées à ces scripts bien sure.
A partir de ces données on a etablit le
scripts de parcours, filtrage, et netoyage TPPERL.PL , on exécutant ce
script on
obtient en resultat ce fichier XML :
SORTIE.XML
met en forme avec la feuille de style suivante: STYLE.XSL
|
Dans cette deuxième partie il est demandé
d'étiqueter le texte des balises description filttré
d'abord
avec l'étiqueteur TreeTagger,
ensuite avec l'étiqueteur Cordial.
Il est demande comme au dans la premiere partie de fournir les
resultats sous forme d'un fichier XML avec une feuille de style.
On voudrais souligner juste que dans cette partie l'etiquetage du texte
prend un tres grand temps, et du fait l'affichage des resultats
(fichier XML) prend
énormement de temps pour se telecharger entierement car ca
constitue un nombre relativement important de données traites
par le treetagger.
Etant donnée ce petit soucis on vous propose ici des liens vers
des échantillons d'annalyse facile a afficher. qu'on a appliquer
sur deux fichier seulement pour limiter le temps d'attente pour
l'affichage, et permettre de voir un aperçu des résultats.
Donc on a utilisé pour se faire ce script de parcours
etiquetage: TPPERLTREE.PL,
qui apres exécution nous donne le résultat suivant: TEXT.TXT ou sont
stokés les contenus des balises decription mot par ligne.
ce texte que la boucle de taggage prend en
entréé pour
nous fournir en sortie un fichier etiqueté et
lématisé: RESULTAT-TAGGAGE.TXT ,
un script perl transforme après cette sortie
texte en fichier XML structuré RESULTAT-TAGGAGE.xml
avec la feuille de style XSLT fournie dans la boite à
outil 2: SORTIE-ETIQUETAGE.XSL
aprés on a effectué un autre etiquatage
sur le fichier TEXT.TXT
mais cette fois-ci avec l'étiqueteur Cordial; voici les
resultats: cordial.txt
ces résultats donc, on précise bien sont juste
des échantillons pour vous permettre de visualiser les resultats
obtenus. vu la dimension du corpus.
Néamoins on vous fourni d'autres liens pour les mêmes
résultats demandés dans la boite à outil
Numéro2. mais ces liens concerne l'étiquetage de la
totalité des contenus des fichiers de l'arboressence, pour
les plus patients.
Fichier texte: TEXT.TXT ( mot par ligne ) .
Fichier resultat apres taggage : RESULTAT-TAGGAGE.TXT
Fichier resultat taggage au format XML : RESULTAT-TAGGAGE.xml
Feuille de style XSLT utilisée : SORTIE-ETIQUETAGE.XSL
|