Samia Achouri
(master tal Paris
3)
Programmation et projet
encadré
Travail sur boites à
outils:
Serie1(script perl)
Serie2(etiquetage)
Serie3(Extraction terminologique)
Serie4(Textes aux graphes)
Script
perl
Première partie:Script
perl
Un script
perl((P.E.R.L. signifie Practical Extraction and Report Language. Que
l'on pourrait (essayer de) traduire
par « langage pratique d'extraction et
d'édition ».
Créé en 1986 par Larry Wall (ingénieur système). Au départ pour
gérer un système de « News »
entre deux réseaux ,il permet de:
*Générer,mettre à jour'analyser des fichiers HTML(notammemt pour l'écriture deCGI),
*Avoir accès "universel" aux bases de données,
*Converser les formats de fichiers.))
et une arborescence de fils RSS ,nous y fournis afin de pouvoir
atteindre notre objectif qui est celui d'écrire un script perl
qui parcourt une arborescence de fichiers pour réaliser un
programme qui permet le filtrage du contenu textuel des balises DESCRIPTION sous forme de
fichier xml.
Nous avons obtenu en résultat un fichier de sortie(resultat-filtrage.pl)
Etiquetage.
Deuxième partie:Etiquetage.
Notre objectif dans cette partie avec l'étiqueteur tree_tagger,script
perl et arborescence de fils RSS est d'écrire un script perl qui
permet de parcourir une arborescence de fichiers pour extraire le
contenu de balises"description",d'étiqueter le contenu extraits
avec le programme tree tagger et créer en sortie un fichier xml
avec le résultat du traitement.
En resultats nous avons obtenue:
* Deux fichiers structurés(resultat_tree_tagger_txt.xml)et(resultat_tree_tagger.xml.txt)
A l'aide de l'étiqueteur cordial et le fichier xml
avec le contenu des balises"description"(resultat_ filtrage.xml),nous
allons extraire le contenu des balises dans un fichier texte avec le
programme cordial.
En resultat nous avons obtenu:
*un script qui permet d'extraire le contenu
recherché dans un fichier(sortie.txt).
*Un fichier étiqueté par cordial(sortiecordial.txt).
Extraction
terminologique
Troisieme partie:Extraction terminologique
Tree-Tagger
Dans cette partie on rajoute un (programme) qui permet d'extraire des patrons syntaxiques à partir des resultats de tree-tagger (voir ici) ce programme va lire cet étiquetage et extraire les patrons syntaxiques.On lancant ce programme avec le patron(NOM ADJ et ADJ NOM) on obtient ceci :
Resultat du fichiers de termes:(resultat.txt)
Patron morpho-syntaxique:(P nom adj)
Trace du fichier:(cf)
Cordial
A partir d'un autre programme (cliquer ici) et le le fichier obtenu par l'étiqueteur cordial(fichier cordial) et le patron (NC +ADJ) on lance le programme avec cygwin et le resultat est le (suivant)
Des Textes aux Graphes
Quatrième partie:Textes aux graphes
a-Tree-Tagger
Dans cette partie notre objectif est de construire un graphe.En
appliquant le( programme patron2graphml) au (fichier) obtenu dans la serie3
on obtient un (fichier xml) en sortie et l'application d'une (feuille de
style xsl) nous donne ce resultat enregistrer sous format texte (resultat.net) charger sous pajek on obtient le graphe suivant(graphe treetagger.jpg)
b-Cordial
Pour cordial c'est le meme principe on a en resultats:
fichier xml (cf2)
résultat texte Cordial pour Pajek :(
pajek_cordial.txt)
graphe de Cordial : (graphe_cordial.jpg)