Les sens du mot "barrage" sur le Web
de
Névéna
Pantikina, étudiante en DESS Traductique et gestion de l'information,
Inalco
et
Virginie
Picard, étudiante en Master PLURITAL, Université de Paris 3
Présentation du projet :
Le présent exercice fait partie d'un projet en cours ayant pour objectif l'étude des différents
sens du mot
"barrage" représentés sur le Web. Le travail s'est déroulé sur plusieurs
semaines, dans le cadre du cours "Programmation et projet encadré", 1er semestre de l'année 2005-2006, sous la
direction de Jean-Michel Daube, Serge Fleury et Benoît
Habert.
L'objectif de cet exercice était de réaliser une
chaîne de traitement semi-automatique des ressources
textuelles. Chaque étape de ce processus impliquait la
réalisation d'une tâche concrète (constitution
d'un corpus d'une cinquantaine de pages Web, normalisation des
textes, extraction de contextes, structuration et
présentation des résultats)
à l'aide d'outils que nous devions apprendre à
maîtriser.
L'automatisation des tâches a
été effectuée dans l'environnement Cygwin à
l'aide des commandes spécifiques Wget, Lynx et Egrep. La
finalité de notre travail était de relever certains
usages du mot "barrage" en les illustrant par des contextes représentatifs, le tout organisé dans une structure prédéfinie.
L'organisation de ce site retrace les différentes activités :
Tout d'abord, vous pouvez lire un journal
qui retrace la chronologie des tâches réalisées
pour ce projet, relate les problèmes rencontrés lors de
l'utilisation des outils et donne quelques conclusions quant' aux résultats qualitatifs et quantitatifs obtenus.
Ensuite, vous pouvez cliquer sur les trois commandes que nous avons
utilisées sous Cygwin pour voir les programmes que nous avons
créés et les résultats obtenus :
-
la première commande a été wget. Wget permet d'aspirer des pages Web.
- la deuxième a été lynx. Lynx avec l'option -dump permet de ne garder que le texte des pages Web.
- la troisième a été egrep. Egrep permet d'extraire un motif donné ainsi que son contexte.