Les sens du mot "barrage" sur le Web

Journal de travail

de
Névéna Pantikina, étudiante en DESS Traductique et gestion de l'information, Inalco
et
 Virginie Picard, étudiante en Master PLURITAL, Université de Paris 3

Dans ce journal, nous vous présentons une description détaillée des activités menées, des résultats obtenus et des observations effectuées.


1. OBSERVATION DES SENS

L'objectif du premier cours était d'observer la présence du mot "barrage" sur le Web et d'en relever les différents sens. Dans ce but, nous avons fait une requête sur le moteur de recherche Google, sous la rubrique "Actualité" afin de noter les sens les plus fréquents représentés sur les sites associés à cette rubrique. Cette première requête a abouti à l'ébauche d'une liste des différents sens du mot "barrage".


2. CHOIX DES DONNEES À TRAITER et PREMIER REGROUPEMENT PAR SENS

La deuxième séance de travail a été consacrée au choix des données à récupérer sur le Web. À partir d'une liste de moteurs de recherche prédéfinie, nous avons choisi deux moteurs généralistes : Google et Mozbot. Sur Google, la requête a été limitée aux pages francophones pour établir l'équivalence avec Mozbot qui est par défaut un moteur francophone.

Avant de fixer notre choix sur ces deux moteurs, nous avions testé le Google scholar afin de vérifier la couverture par ce moteur du champ sémantique de "barrage" dans les pages françaises. La requête n'ayant donné aucun résultat en français, nous avons posé le cadre de notre étude sur Google et Mozbot. Cette démarche devait nous permettre, en dehors de l'objectif proprement linguistique, d'observer et comparer le comportement des deux moteurs, jugés presque identiques, face à la même requête.


Tout d'abord nous avons comparé Google et Mozbot en termes de quantité des résultats. Avec le moteur de recherche Google, 2 500 000 résultats ont été obtenus avec la recherche du mot "barrage" (84 pages de résultats affichées pour 847 URL ; les autres, non affichées, définies comme "similaires"). Avec celui de Mozbot, 204 000 résultats ont été obtenus (88 pages de résultats affichées pour 843 URL). Nous observons que le nombre de résultats est sensiblement différent d'un moteur à l'autre.

En termes de qualité, il convient de noter que les résultats sont pré-traités par les moteurs de recherche qui ignorent certaines pages qu'ils considérent comme non pertinentes. Au vu du nombre de pages Web trouvées sur Google (847), nous pouvons supposer qu'il y a plus de résultats non pertinents ou de doublons que sur Mozbot.

Lors de l'étape suivante, nous avons abordé la constitution de notre corpus de travail proprement dit. Dans le cadre de l'exercice, ce corpus devait regrouper 50 URLs ou plus, contenant des illustrations pertinentes des différents usages du mot "barrage". Afin de mieux profiter du travail en binome, nous avons choisi chacune un moteur de recherche et décidé de procéder par échantillonnage sur les pages de résultats de départ. La méthode consistait
à parcourir toutes les 10 pages de résultats (pour une économie de temps et de ressources) et d'y relever les URLs des sites Web pertinents. Les URLs retenues ont été copiées dans des fichiers texte que nous avons classés et nommés par sens. La recherche par échantillons sur les deux moteurs a permis de comparer les résultats des deux moteurs, et de tenter une couverture plus large des différents sens du "barrage".

Dans un premier temps, nous avons fait un premier échantillonnage des différents sens de "barrage" (les mieux couverts et les plus spécifiques) en nous référant à la fiche "barrage" du TLFI (donnée en référence). Dans un second temps, nous avons essayé d'étendre notre échantillonnage vers des sens plus spécifiques en combinant sur les mêmes moteurs généralistes le mot "barrage" avec des mots clés ("par sens"). L'objectif de notre démarche était de vérifier en quelle mesure les sens attestés dans TLFI étaient représentés sur le Web. Nos requêtes sur le Web n'ont pas donné de résultats illustrant l'expression "droit de barrage".

Pour plus de clarté, nous avons regroupé les URLs dans des fichiers texte portant le nom du sens ou plutôt du domaine d'emploi du mot "barrage" (répertoire Url, les fichiers .txt contenus dans les sous-dossiers du même nom) :
- barrage : comporte les URLs des pages web qui concernent les barrages hydrauliques ainsi que les barrages naturels.
- sport : les URLs réfèrent au sens du mot "barrage" dans le domaine du sport, y compris le cas particulier de l'expression "match de barrage".
- politique : illustre les sens du mot "barrage" ("tir de barrage" et "faire barrage") dans le domaine politique.
- social : dans ce fichier, une URL où le mot "barrage" est employé dans le contexte d'un mouvement social.
- militaire : les URLs retenues se réfèrent à l'emploi de "barrage" dans le domaine militaire en général et à "tir de barrage" dans ce domaine spécifique.
- routier : quelques exemples sur le Web de l'emploi du mot "barrage" dans le domaine de la circulation routière.
- psychologie : présente le mot "barrage" dans le domaine de la psychologie.
- obstacle : sous cette rubrique nous regroupons quelques emlpois isolés du mot "barrage" qui font référence à la notion d'obstacle.


3. OBSERVATION ET CRITIQUE DE LA RECHERCHE

Au cours de la troisième séance nous avons revu les résultats de l'échantillonage fait à la maison et tiré les premières conclusions des requêtes.

Ainsi, nous avons constaté que les moteurs de recherche opéraient une large couverture du sens "barrage hydraulique", et ce de manière homogène sur toutes les pages consultées (5 URLs au moins par 10 pages). En revanche, il y a un déséquilibre par rapport à la couverture des autres sens qui sont beaucoup plus dispersés. Les sens isolés sémantiquement intéressants apparaissent généralement dans les dernières pages de résultats (p. ex. domaine de la psychologie et ceux classés dans la catégorie "obstacle"). Les premières pages de résultats affichent le mot "barrage" pris dans son sens le plus commun, hydraulique ou naturel, utilisé pour définir ou situer un lieu touristique.

L'expression "droit de barrage" n'a été trouvée par aucun des moteurs de recherche, que ce soit lors d'une requête simple sur le mot "barrage" tout seul ou bien lors d'une requête sur l'expression précise "droit de barrage".


4. OUTILS DE COLLECTE DES DONNEES et COMMANDES UTILISEES

La collecte des données devait être faite par la commande Wget utilisée sous l'environnement Cygwin. Wget permet l'aspiration de pages Web.
Lors des premiers essais, nous avons rencontré certains problèmes qui ont été résolus grâce à l'utilisation d'options avec la commande Wget. Le premier problème constaté est que la commande Wget ne permet pas la récupération des images contenues dans les pages Web. Il est vrai que dans le cadre de notre projet il n'est pas pertinent de récupèrer ces liens, puisque l'objet de l'étude concerne le contenu textuel des pages Web, mais pour une présentation esthétique il convient de récupèrer ces liens.

Une deuxième difficulté est apparue lors des essais préalables. Ayant choisi un site composé de frames (en l'occurrence celui de l'Ilpga), nous avons essayé de l'aspirer. Pour récuperer la page d'accueil (la page contenant les frames), il nous fallait télécharger les pages qui lui étaient associées. Pour cela, l'option -p s'est avérée utile. Cette option permet d'aspirer la page principale en question ainsi que toutes les pages ou documents qui lui sont associés. Le problème est que lorsque la page Web ne contient pas de frames, avec cette option nous aspirons une trop grande quantité de pages non pertinentes. Après avoir constaté la difficulté et envisagé une solution éventuelle, nous nous sommes rendu compte qu'aucune page dans nos URLs n'était composée de frames. Ainsi, nous n'avons pas eu besoin de récourir à cette option.

Le troisième problème qui a attiré notre attention est le fait que certaines pages aspirées lors des essais ne se terminaient pas par l'extension htm ou html. Ce problème a été résolu par l'insertion de l'option -E.

La commande Wget permet d'aspirer des pages Web isolées dont l'adresse est notée en argument. Comme nous avions copié les URLs dans des fichiers texte (cf. paragraphe 2 ci-dessus) et afin d'automatiser les tâches, nous avons utilisé l'option -i permettant de lire les URLs contenues dans un fichier, suivie du nom du fichier au format texte. L'extension du fichier lu par la commande doit être .txt (texte seul) afin de permettre l'utilisation de cette option. En effet, l'extension .doc (de Word) ne permet pas à l'option -i de le lire.

Explication de la commande :
Ouvrir Cygwin, rentrer la commande Wget avec les options nécessaires.
Pour chaque fichier texte du répertoire url  nous avons écrit la commande suivante :

wget -E -k -i adresse/nomdufichierurls.txt -o adresse/erreur.txt -P adresse/nomdurepertoire

-E : ajoute l'extension .html aux pages aspirées qui ne finissent pas par html ou htm.
-k : permet l'enregistrement des liens de documents (tels que les images) que contiennent les pages aspirées et convertit ces liens pour qu'ils soient consultables en local.
-i suivi du nom du fichier ayant l'extension .txt : permet de lire les URLs contenues dans un fichier. Attention, certaines extensions comme .doc ne fonctionnent pas avec cette option.
-o suivi du nom du fichier ayant l'extension .txt : enregistre tous les messages dans un fichier de sortie (au lieu de l'écran). Cette option nous permettra de pouvoir garder dans un fichier de sortie les erreurs qui ont eu lieu lors de l'exécution de la commande Wget.
-P suivi de l'adresse du répertoire : permet d'enregistrer les pages aspirées dans un répertoire précis.

Les erreurs
Pour finir, il convient de noter que certaines pages qui n'avaient pas été aspirées lors de l'utilisation de la commande Wget au labo C (à l'Ilpga) ont été aspirées à notre domicile au cas par cas. La plupart des pages non aspirées avaient l'extension .php.


Voici un exemple.
Le texte qui suit provient du fichier texte créé grâce à l'option -o qui enregistre tous les messages qui s'affichent à l'écran lors de l'exécution de la commande Wget. En fait, ces messages donnent des informations sur le téléchargement. Ici, à 12h58, la commande Wget essaye d'aspirer la page Web du site http://www.lefaso.net/article.php3?id_article=368. Le symbole => indique que cette page aspirée sera enregistrée à l'adresse qui suit. Tout ce passe bien jusqu'à ce qu'une erreur apparaît : "No such file or directory". Le message d'erreur signifie que soit le répertoire où nous voulions enregistrer cette page n'existe pas, ce qui n'est pas le cas, soit le fichier n'existe pas. Or, il existe. Enfin, un message apparaît qui résume ce qui s'est passé : "Cannot write to `D:/MASTERTAL/PicardPantikina/Hydro/article.php3?id_article=368.html' (No such file or directory)".

--12:58:37--  http://www.lefaso.net/article.php3?id_article=368
           => `D:/MASTERTAL/PicardPantikina/Hydro/article.php3?id_article=368'
Connecting to www.lefaso.net:80... connected!
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
D:/MASTERTAL/PicardPantikina/Hydro/article.php3?id_article=368.html: No such file or directory

Cannot write to `D:/MASTERTAL/PicardPantikina/Hydro/article.php3?id_article=368.html' (No such file or directory).

Au contraire, si tout s'était bien passé, le message aurait ressemblé à celui-ci :

--12:54:22--  http://www.baby-walz.com/boutique/barrage_de_securite.asp
           => `D:/MASTERTAL/PicardPantikina/Autre/barrage_de_securite.asp'
Connecting to www.baby-walz.com:80... connected!
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]

    0K -> .......... .......... .......... ...

12:54:23 (74.62 KB/s) - `D:/MASTERTAL/PicardPantikina/Autre/barrage_de_securite.asp.html' saved [34689]

avec un message final qui donne l'heure, le nombre de bits téléchargés par seconde, l'adresse absolue contenant le nom de cette page aspirée et qui se termine par "saved" (enregistré) suivi d'un nombre entre crochets.

En fin de compte, sauf erreur lors du téléchargement à l'université, toutes les URLs contenues dans les fichiers texte de départ ont pu être aspirées. (cf. le programme pour voir le résultat).


5. FORMATAGE DES DONNEES

Le formatage des données a été effectué à l'aide de la commande Lynx avec l'option -dump dans l'environnement Cygwin. L'objectif de notre exercice étant d'automatiser au maximum les tâches, cette commande devait se faire à travers un programme shell (cf. le programme).

Le script shell devait permettre de lire les pages html contenues dans les différents dossiers du répertoire Wget et d'enregistrer ces pages
"dumpées" dans un nouveau répertoire - dump, organisé en sous-répertoires reprenant le nom des dossiers html d'origine.

À noter, que lors du premier lancement du programme shell, certaines pages n'ont pas pu être "dumpées" : sur les 65 pages aspirées par Wget, 21 pages n'ont pas été "dumpées". Lynx disait qu'il ne pouvait accéder à la page. Quelques jours plus tard, sans rien modifier à notre programme, nous avons pu "dumper" les 65 pages aspirées sans renconter la moindre difficulté. 


6. EXTRACTION DES CONTEXTES

Afin d'illustrer les différents usages du mot "barrage" nous devions extraire des contextes. Nous avons utilisé la commande egrep (toujours sous Cygwin). L'automatisation de cette tâche devait se faire via un programme shell.

egrep 'barrage' nomfichier.txt
Cette ligne de commande avec egrep recherche le motif  "barrage" (en minuscules et au singulier) dans le fichier "nomfichier.txt".
L'option -i (que nous avons utilisée) permet de chercher le motif "barrage" en ignorant la casse. Les résultats de l'extraction sont redirigés vers un autre fichier : pour cela il faut ajouter en fin de ligne de commande le chevron fermant de redirection ">" suivi du nom du fichier qui contiendra le résultat de l'extraction.

L'option -A suivie d'un nombre et l'option -B suivie d'un nombre permettent de prendre un nombre de lignes avant (-A) et un nombre de lignes après (-B) le motif recherché (définir le contexte à extraire). Par exemple,  la ligne de commandeegrep -A 1 -B 1 -i 'barrage' fichier.txt > fichier2.txt, indique que nous cherchons à extraire dans fichier.txt le motif 'barrage' sans distinction de casse (option -i), que nous allons extraire avec lui une ligne avant (l'option -A 1) et une ligne après (l'option -B 1) et que les résultats de cette extraction seront enregistrés dans le fichier texte nommé fichier2.txt.

Après avoir observé les résultats obtenus avec cette ligne de commande, nous avons décidé de ne pas utiliser l'option -A nombre et -B nombre. En réalité, dans la très grande majorité des cas
l'option -i nous a permis d'obtenir un contexte pertinent pour le mot "barrage", alors que le contexte extrait avec les options de ligne avant/ligne après était trop long. En effet, lors de la commande lynx -dump, la notion de ligne proprement dite n'est pas respectée dans les pages "dumpées".

Les résultats obtenus contiennent le contexte du mot "barrage" qu'il soit présent dans le titre, dans les liens ou dans le corps du texte. 
Les résultats "contextes" pourraient être affinés par l'application de nouveaux filtres.



7. CONCLUSIONS

Nous avons représenté les étapes de notre travail (Url/Wget/Lynx/Egrep) dans un tableau récapitulatif qui retrace les relations entre les tâches accomplies. (cliquez sur tableau pour le visualiser). Nous n'avons pas réussi à créer un programme unique pour les quatre étapes. Par conséquent, nous avons repris la partie Wget/Lynx/egrep faite par le dernier programme (egrep) et y avons rajouté manuellement le tableau des Urls fait avec la commande Wget.