Les
différents usages du mot "BARRAGE" sur le web
Projet réalisé par: BENMESSAOUD Boualem -Master TAL, Université Paris 3-
&
BACHA Bounouar -Master TAL, Université Paris 3-
Les différents sens du mot
"Barrage", est le sujet de ce projet encadré par M.Serge
Fleury et M.Rachid Belmouhoub dans la cadre de leur cours
"Programmation et projet encadré".
L'objectif
de notre projet est de relever sur le web les différents
sens du mot "Barrage", et d'effectuer une série de traitements
automatiques sur les resources textuelles (Pages web). Notre travail
s'est fait en quatres étapes principales.
La première étape,
consiste à récolter les différentes
utilisations sémantiques du mot "Barrage", pour cela il
fallait effectuer une recherche sur le net en utilisant un moteur de
recherche, dans notre cas nous avons utilisé Google, et nous avons
séléctionné une cinquantaines d'Urls
qui contennaient le mot "Barrage".
Dans la deuxième
étape, nous avons utilisé la commande
wget(PDF,HTML) pour aspirer les pages. En suite, dans la troisième étapes,
la commande lynx (PDF, HTML), pour récupérer les textes des
pages web. Enfin, dans la
dernière étape, nous avons
utilisé la commande egrep (PDF, HTML) pour filtrer les textes
récupérés par la commande lynx et ne
garder que le contexte d'apparition de mot "Barrage".
Les trois dernières étapes, aspiration des pages web avec wget,
récupération
du texte des pages web avec lynx et filtrage
du mot "Barrage" avec egrep ont été
réalisés automatiquement avec un script shell (HTML, SH)
sous l'envirronement linux.
Les résultats obtenus sont représentés sous formes
de tableaux où chaque tableau récapitule les tâches
effectuées pour chaque usage du mot "Barrage". Ces
résultats (tableaux et scripts) sont résumés dans la conclusion.
Suivant >