Les
sens du mot "barrage" sur le Web
Journal de travail
de
Névéna
Pantikina, étudiante en DESS Traductique et gestion
de l'information, Inalco
et
Virginie Picard,
étudiante en Master PLURITAL, Université de Paris
3
Dans ce journal, nous vous présentons une
description détaillée des activités
menées,
des résultats obtenus et des observations
effectuées.
1.
OBSERVATION DES SENS
L'objectif
du premier cours était d'observer la présence du
mot
"barrage" sur le Web et d'en relever les différents sens. Dans
ce but, nous avons fait une requête sur le moteur de
recherche Google, sous la rubrique "Actualité" afin de noter
les
sens les plus fréquents
représentés sur les sites
associés à
cette rubrique.
Cette
première requête a abouti à
l'ébauche d'une
liste des différents sens
du mot "barrage".
2.
CHOIX DES DONNEES À TRAITER et PREMIER REGROUPEMENT PAR SENS
La deuxième
séance de travail a été
consacrée au
choix des données à
récupérer sur le Web. À partir d'une
liste de
moteurs de
recherche prédéfinie,
nous avons choisi deux moteurs généralistes
: Google et Mozbot. Sur Google, la requête a
été
limitée
aux pages francophones pour établir l'équivalence
avec
Mozbot qui est par défaut un moteur francophone.
Avant de fixer notre choix
sur
ces deux moteurs, nous avions testé le Google scholar afin
de
vérifier la couverture par ce moteur du champ
sémantique
de "barrage" dans les pages françaises. La requête
n'ayant
donné aucun résultat en français, nous
avons
posé le cadre de notre étude sur Google et
Mozbot. Cette
démarche devait nous permettre, en dehors de l'objectif
proprement linguistique, d'observer et comparer le
comportement
des deux moteurs, jugés presque identiques, face
à la
même requête.
Tout d'abord nous avons
comparé Google et Mozbot en termes de
quantité des résultats. Avec le moteur de
recherche Google, 2 500 000 résultats ont
été obtenus avec la recherche du mot "barrage"
(84 pages de
résultats
affichées pour
847 URL ; les autres, non affichées, définies
comme
"similaires"). Avec celui de Mozbot, 204 000
résultats ont été obtenus (88 pages de
résultats
affichées pour 843 URL). Nous observons que le nombre de
résultats est sensiblement différent d'un moteur
à l'autre.
En termes de qualité,
il convient de noter que les
résultats sont pré-traités
par
les moteurs
de
recherche qui ignorent certaines pages qu'ils considérent
comme
non pertinentes. Au vu du nombre de pages Web trouvées sur
Google (847), nous pouvons supposer qu'il y a plus de
résultats non pertinents
ou de doublons que sur Mozbot.
Lors de l'étape suivante, nous avons
abordé la
constitution de notre corpus de travail proprement dit. Dans le cadre
de l'exercice, ce corpus devait regrouper 50 URLs ou plus, contenant
des illustrations pertinentes des différents usages
du mot
"barrage". Afin
de mieux profiter du travail en binome, nous avons choisi chacune un
moteur de recherche et décidé de
procéder
par échantillonnage
sur les pages de résultats de départ. La
méthode
consistait
à parcourir toutes les 10 pages de résultats (pour
une
économie de temps et de ressources) et d'y relever les URLs
des sites Web
pertinents. Les
URLs retenues ont été copiées dans des
fichiers
texte que nous avons classés et
nommés par sens. La recherche par échantillons
sur
les deux
moteurs a permis de comparer les résultats des deux
moteurs, et de tenter une couverture plus large des
différents
sens du
"barrage".
Dans un premier temps, nous avons fait un premier échantillonnage des
différents
sens de "barrage" (les mieux couverts et les plus
spécifiques) en nous référant
à
la fiche "barrage" du TLFI (donnée en
référence). Dans un second temps, nous
avons essayé d'étendre notre échantillonnage vers des sens plus
spécifiques en combinant sur les mêmes
moteurs généralistes le mot "barrage" avec
des mots clés ("par sens").
L'objectif de notre démarche était de
vérifier en quelle mesure les sens attestés dans
TLFI étaient
représentés sur le Web. Nos requêtes
sur le Web
n'ont pas donné de résultats illustrant
l'expression
"droit de barrage".
Pour
plus de clarté, nous avons regroupé les URLs dans
des
fichiers texte portant le nom du sens ou plutôt du domaine d'emploi du
mot
"barrage" (répertoire Url, les fichiers .txt contenus dans
les sous-dossiers du même nom) :
- barrage
: comporte les URLs des pages web qui concernent les barrages
hydrauliques ainsi que
les barrages naturels.
- sport
: les URLs réfèrent au sens du mot "barrage"
dans le domaine du sport, y compris le cas particulier de l'expression
"match de barrage".
- politique
: illustre les sens du mot "barrage" ("tir de barrage" et
"faire barrage") dans le domaine politique.
- social :
dans ce fichier, une URL où le mot "barrage" est
employé dans
le contexte d'un mouvement social.
- militaire
: les URLs retenues se réfèrent à
l'emploi de "barrage" dans le domaine militaire en
général et à "tir de barrage" dans ce
domaine spécifique.
- routier
: quelques exemples sur le Web de l'emploi du mot "barrage" dans le
domaine de la circulation routière.
- psychologie
: présente le mot "barrage" dans le domaine de la
psychologie.
- obstacle
: sous cette rubrique nous regroupons quelques emlpois
isolés
du mot "barrage" qui font référence à
la notion d'obstacle.
3.
OBSERVATION ET CRITIQUE DE LA RECHERCHE
Au cours de la
troisième séance nous avons revu les
résultats de
l'échantillonage fait à la maison et
tiré les premières conclusions des
requêtes.
Ainsi, nous avons
constaté que les moteurs de recherche opéraient
une large couverture
du sens "barrage hydraulique", et ce de manière
homogène sur toutes
les pages consultées (5 URLs au
moins par 10 pages). En revanche, il y a un
déséquilibre
par rapport à la couverture des
autres sens qui sont beaucoup plus dispersés. Les sens
isolés sémantiquement intéressants
apparaissent
généralement
dans les dernières pages de résultats
(p. ex.
domaine de la psychologie et ceux classés dans la
catégorie "obstacle"). Les premières pages de
résultats affichent le mot "barrage" pris dans son sens le
plus
commun, hydraulique ou naturel, utilisé pour
définir
ou situer un lieu touristique.
L'expression "droit de
barrage" n'a été trouvée par aucun des moteurs
de recherche,
que ce soit lors d'une requête simple sur le mot
"barrage" tout seul ou bien lors d'une requête sur
l'expression précise "droit de barrage".
4.
OUTILS DE COLLECTE DES DONNEES et COMMANDES UTILISEES
La
collecte des données devait être faite par la
commande Wget utilisée sous l'environnement Cygwin.
Wget
permet l'aspiration de pages Web.
Lors
des premiers essais, nous avons rencontré certains
problèmes qui ont été
résolus grâce
à l'utilisation
d'options avec la commande Wget. Le premier problème
constaté est que la commande Wget ne permet pas la
récupération des images contenues dans les
pages Web. Il est vrai que dans le cadre de notre projet il n'est pas
pertinent de récupèrer ces liens, puisque l'objet
de
l'étude concerne le contenu textuel des pages
Web, mais pour
une présentation
esthétique il convient de récupèrer
ces liens.
Une deuxième difficulté est apparue lors des
essais préalables. Ayant choisi un
site composé de
frames (en l'occurrence celui de l'Ilpga), nous avons essayé
de
l'aspirer. Pour récuperer la page d'accueil (la page
contenant les frames), il nous fallait
télécharger les
pages qui lui étaient associées. Pour cela,
l'option -p
s'est avérée utile. Cette option permet d'aspirer
la page
principale en question ainsi que toutes les pages ou documents
qui
lui sont associés. Le problème est que lorsque la
page
Web ne contient pas de frames, avec cette option nous aspirons une trop
grande quantité de pages non pertinentes. Après
avoir
constaté la difficulté et envisagé une
solution
éventuelle, nous nous sommes rendu compte qu'aucune page
dans
nos URLs n'était composée de frames. Ainsi, nous
n'avons
pas eu besoin de récourir à cette option.
Le troisième problème qui a attiré
notre attention est le fait que certaines pages
aspirées lors des essais ne se terminaient pas par
l'extension htm
ou html. Ce
problème a été résolu par
l'insertion de l'option -E.
La commande Wget permet d'aspirer des pages Web
isolées dont
l'adresse est notée en argument. Comme nous avions
copié les URLs dans des fichiers texte (cf. paragraphe 2
ci-dessus) et afin
d'automatiser les tâches, nous avons utilisé
l'option
-i permettant de lire les URLs contenues dans un
fichier, suivie du nom du fichier au format texte. L'extension
du fichier lu par la
commande doit être .txt (texte seul) afin de
permettre l'utilisation de cette option. En effet, l'extension .doc (de
Word) ne permet pas à l'option -i de le lire.
Explication de
la commande :
Ouvrir Cygwin, rentrer la commande Wget avec les options
nécessaires.
Pour chaque
fichier texte du répertoire url nous avons écrit la commande suivante :
wget -E -k -i
adresse/nomdufichierurls.txt -o adresse/erreur.txt -P
adresse/nomdurepertoire
-E : ajoute
l'extension .html aux
pages aspirées qui ne finissent pas par html ou htm.
-k
: permet l'enregistrement des liens de documents (tels que les images)
que contiennent les pages aspirées et convertit ces liens
pour
qu'ils soient consultables en local.
-i
suivi du nom du fichier ayant l'extension .txt
: permet de lire les URLs contenues dans un fichier.
Attention,
certaines extensions comme .doc ne fonctionnent pas avec cette option.
-o suivi du nom du
fichier ayant l'extension .txt : enregistre tous les
messages dans un
fichier de sortie
(au lieu de l'écran). Cette option nous permettra de pouvoir
garder dans un fichier de sortie les erreurs qui ont eu lieu lors de
l'exécution de la
commande Wget.
-P suivi de l'adresse du
répertoire : permet d'enregistrer les pages
aspirées dans un répertoire précis.
Les erreurs
Pour
finir,
il convient de noter que certaines pages qui n'avaient pas
été
aspirées lors de l'utilisation de la commande Wget au labo C
(à l'Ilpga) ont
été aspirées à notre
domicile au cas par cas. La plupart des pages
non aspirées avaient l'extension .php.
Voici un exemple. Le texte
qui
suit provient du fichier texte créé
grâce à
l'option -o qui enregistre tous les messages qui s'affichent
à l'écran lors de l'exécution de la
commande Wget. En fait,
ces messages donnent des informations sur le
téléchargement. Ici, à 12h58, la
commande Wget essaye d'aspirer la page Web du site http://www.lefaso.net/article.php3?id_article=368.
Le symbole =>
indique que cette page aspirée sera enregistrée
à
l'adresse qui suit. Tout ce passe bien jusqu'à ce qu'une
erreur
apparaît : "No such file
or directory". Le message d'erreur signifie que soit le
répertoire où nous voulions
enregistrer cette page n'existe pas, ce qui n'est pas le cas, soit le
fichier n'existe pas. Or, il existe. Enfin, un message
apparaît
qui résume ce qui s'est passé : "Cannot write to
`D:/MASTERTAL/PicardPantikina/Hydro/article.php3?id_article=368.html'
(No such file or directory)".
--12:58:37--
http://www.lefaso.net/article.php3?id_article=368
=>
`D:/MASTERTAL/PicardPantikina/Hydro/article.php3?id_article=368'
Connecting
to www.lefaso.net:80... connected!
HTTP
request sent, awaiting response... 200 OK
Length:
unspecified [text/html]
D:/MASTERTAL/PicardPantikina/Hydro/article.php3?id_article=368.html:
No such file or directory
Cannot
write to
`D:/MASTERTAL/PicardPantikina/Hydro/article.php3?id_article=368.html'
(No such file or directory).
Au contraire, si tout
s'était bien passé, le message aurait
ressemblé à celui-ci :
--12:54:22--
http://www.baby-walz.com/boutique/barrage_de_securite.asp
=> `D:/MASTERTAL/PicardPantikina/Autre/barrage_de_securite.asp'
Connecting
to www.baby-walz.com:80... connected!
HTTP request
sent, awaiting response... 200 OK
Length:
unspecified [text/html]
0K -> .......... .......... .......... ...
12:54:23
(74.62 KB/s) -
`D:/MASTERTAL/PicardPantikina/Autre/barrage_de_securite.asp.html' saved
[34689]
avec un message final qui donne
l'heure, le nombre de bits
téléchargés par seconde, l'adresse
absolue
contenant le nom de cette page aspirée et qui se
termine par "saved" (enregistré) suivi
d'un nombre entre crochets.
En fin de compte, sauf
erreur lors du
téléchargement à
l'université, toutes les URLs contenues dans les fichiers
texte de départ ont pu
être aspirées. (cf. le programme pour voir le
résultat).
5.
FORMATAGE DES DONNEES
Le
formatage des données a été
effectué
à l'aide de la commande Lynx avec l'option -dump dans
l'environnement Cygwin. L'objectif de notre exercice
étant d'automatiser au maximum les
tâches, cette commande devait se faire à
travers un programme shell (cf. le programme).
Le script shell devait permettre de lire les pages html contenues dans
les différents dossiers du répertoire Wget et
d'enregistrer ces pages
"dumpées" dans un nouveau
répertoire - dump, organisé en
sous-répertoires reprenant le nom des dossiers
html d'origine.
À noter, que
lors du
premier lancement du programme shell, certaines pages n'ont pas pu
être
"dumpées" : sur les 65 pages aspirées par Wget,
21 pages n'ont pas été "dumpées".
Lynx disait qu'il ne pouvait accéder à la page.
Quelques
jours plus tard, sans rien modifier à notre programme, nous
avons pu "dumper" les 65 pages aspirées sans renconter
la moindre difficulté.
6.
EXTRACTION DES CONTEXTES
Afin d'illustrer les
différents usages du mot "barrage" nous
devions extraire des
contextes. Nous avons
utilisé la commande egrep (toujours sous Cygwin).
L'automatisation de cette
tâche devait se faire
via un
programme
shell.
egrep
'barrage' nomfichier.txt
Cette ligne de commande
avec egrep recherche le motif "barrage" (en minuscules et
au
singulier) dans le fichier "nomfichier.txt".
L'option -i (que nous
avons
utilisée) permet de chercher le motif "barrage" en ignorant
la casse. Les résultats de
l'extraction sont redirigés vers un autre fichier : pour
cela il faut ajouter en fin de
ligne de commande le chevron fermant de redirection ">" suivi du
nom
du fichier qui
contiendra le résultat de l'extraction.
L'option -A suivie d'un
nombre et
l'option -B suivie d'un nombre permettent de prendre un nombre de
lignes
avant (-A) et un nombre de lignes après (-B) le motif
recherché (définir le contexte à
extraire). Par exemple, la ligne de commandeegrep -A 1 -B 1 -i
'barrage' fichier.txt > fichier2.txt
,
indique que nous cherchons à
extraire
dans fichier.txt le motif 'barrage' sans distinction de
casse (option -i), que nous allons extraire avec lui
une ligne avant (l'option -A 1) et une ligne
après (l'option -B 1) et que les résultats de
cette extraction
seront enregistrés dans le fichier texte nommé
fichier2.txt.
Après avoir observé les résultats
obtenus avec cette ligne de commande,
nous avons décidé de ne pas utiliser l'option -A
nombre
et -B nombre. En réalité, dans la très
grande
majorité des cas l'option -i nous a
permis d'obtenir un contexte pertinent pour
le mot "barrage", alors que le contexte extrait avec les options de
ligne avant/ligne après était trop long. En
effet, lors de la commande lynx -dump, la notion
de ligne proprement dite n'est pas respectée dans les pages
"dumpées".
Les
résultats obtenus contiennent le contexte du mot "barrage"
qu'il soit présent dans le titre, dans les liens ou dans le
corps
du texte. Les résultats "contextes" pourraient être affinés par l'application de nouveaux filtres.
7. CONCLUSIONS
Nous
avons représenté les étapes de notre
travail (Url/Wget/Lynx/Egrep) dans un tableau récapitulatif qui
retrace les relations entre les tâches accomplies. (cliquez
sur
tableau
pour le visualiser). Nous n'avons pas réussi à
créer un programme unique pour les quatre étapes. Par
conséquent, nous avons repris la partie
Wget/Lynx/egrep faite par le dernier programme (egrep) et
y avons rajouté manuellement le tableau des Urls fait
avec la commande Wget.