Les travaux et les jours

Pour commencer :

La première tâche à accomplir est de relever sur le web les différents sens du mot «barrage». Nous avons délibérément opté pour le moteur de recherche . En effet, notre recherche ne visant pas à l’exhaustivité, mais uniquement à répertorier les usages les plus pertinents du mot «barrage», il nous a semblé que , avec ses 87,92 % de trafic généré par mois (d’après le "baromètre") pouvait satisfaire nos vœux, pour autant nous ne perdions pas de vue que les usages relevés reflètent uniquement les acceptions les plus couramment utilisés dans les ressources textuelles consultables en ligne.

, restreint à ses seules pages francophones annonce un chiffre de 1 370 000 pages contenant le mot «barrage», chiffre astronomique pour notre humble recherche de quelques 50 URLs, chiffre aussi à relativiser, puisque notre moteur de recherche bien-aimé a déjà accompli en amont un travail de tri en fonction de critères de pertinence autres que purement linguistiques (cf. article de l’encyclopédie WIKIPEDIA concernant les moteurs de recherche et leur fonctionnement).

Collecte des données :

Afin de constituer notre corpus, nous avons sélectionné les pages en nous référant à l’entrée barrage du TLFI, ce qui nous a permis de constater que les sens attestés dans le dictionnaire ne sont pas tous représentés sur le web. Nous avons noté aussi que les premières pages de renvoyaient pour la quasi-totalité d’entre elles au même sens du mot barrage celui d’une construction hydro-électrique, les sens les plus rares ou les plus spécifiques se retrouvaient reléguées aux dernières pages. Nous avons alors choisi, pour aller plus vite d’ajouter dans notre requête au mot barrage les cooccurrences attestées dans le TLFI, comme Match de barrage ou Test de barrage.

Ainsi nous avons classé les différentes pages en fonction des emplois les plus courants trouvés sur . Chaque URL a été récupérée manuellement grâce à un "copier-coller" dans un fichier .txt portant le nom de l’emploi du mot barrage attesté par la page, le contenu de cette dernière quant à lui a été récupéré par un simple "enregistrer" dans un sous-dossier du même intitulé. Ce qui donne la liste des URLs suivante classées en fonction des différents sens du mot barrage :

Barrage hydraulique.txt : obstacle physique sur un cours d’eau;
Barrage routier.txt : obstacle physique sur une route (policier, militaire);
Faire barrage.txt : opposition sociale ou politique;
Match de barrage.txt : en sport éliminatoire;
Test de barrage.txt : en psychologie.

Intermède :

Une petite découverte qui fait toute la joie de ce travail, le site "memodata" édite et commercialise de nombreux dictionnaires informatisés ainsi que des outils pour le TAL. Sur le site on peut néanmoins accéder à certains dictionnaires, celui des synonymes nous a paru très intéressant, il utilise la méthode de représentation en graphe des synonymes, nous n’avons pu nous empêcher de faire une recherche pour le mot barrage. Il est vrai qu’une représentation en graphe des cooccurrences eût été plus intéressante, néanmoins, celle-ci ne manque pas d’intérêt, on peut entre autre remarquer la densité des liens tous de couleur verte (en jargon des cliques) sur la partie supérieure gauche, là se concentrent les mots comme : écluse, digue, retenue, tous ayant en commun l’élément eau

Aspiration des pages :

Récupérer des pages web sur son ordinateur est une opération possible sous windows, en utilisant "enregistrer" sous du menu fichier on arrive aisément à sauvegarder des pages html avec plus ou moins de bonheur, la tâche devient plus problématique quand il s’agit de récupérer de nombreuses pages et quasiment impossible dés que le nombre dépasse les centaines (ce n’est pas le cas ici mais on y a pensé avec beaucoup de compassion pour les pauvres mortels qui ont eu à subir ce genre de châtiment). Heureusement pour nous l’outil wget existe, cet aspirateur de sites est un logiciel puissant qui permet de créer des miroirs de sites (copie conforme) en local, sur le disque dur de l’ordinateur. Wget est un programme en ligne de commande que nous avons utilisé après avoir accompli quelques premiers pas (hésitants et tremblotants) en commandes shell sur Cygwin (l’écran noir de nos nuits blanches).
La syntaxe de wget quand on travaille directement sur le web est la suivante :

Wget –O http// adresse web

Seulement nous, nos URLs sont toutes sagement alignées dans des fichiers .txt, la syntaxe de wget s’adapte à cette situation ce qui donne la commande suivante :

Wget –E –k –i fichier.txt –o c:/ fichier de sortie

Ici l’option –i suivie du nom de fichier txt permet de lire les URLs dans un fichier avec comme sortie standard non pas l’écran de la console Cygwin, mais un fichier où vont être sauvegardées les pages aspirées grâce à l’option -o.

Wget pour un maximum d’efficacité doit être utilisée avec des options, ceci nous l’avons appris à nos dépens après avoir rencontré certains problèmes.

Tout d’abord, certaines pages n’avaient pas l’extension html et htm, l’option –E force l’extension html et l’ajoute à la fin des URLs.
wget seule ne permet pas de récupérer les images contenues dans les pages des sites, l’option –k enregistre et convertit les liens des images contenues dans les pages web.
Il est difficile avec wget seule d’aspirer des pages web protégées par des mots de passe, il faut impérativement être en possession de ces derniers et de les utiliser en option avec wget pour réussir à pénétrer les temples sacrés.

Nos pages aspirées se trouvent maintenant sur notre disque dur, nous allons utiliser un script Shell généreusement mis à notre disposition par nos professeurs, afin de créer une page qui liste toutes les adresses des pages aspirées dans un tableau à deux colonnes, faisant correspondre à chaque URL du web une URL en local renvoyant à la page aspirée.

Pages épurées :

Notre tâche consiste à automatiser au maximum un travail qui, fait « manuellement » serait ardu et fastidieux. Pour cela, la commande wget nous a montré tout l’intérêt de ce genre de manipulation. Avec le navigateur Lynx nous allons voir que cet automatisme devient une quasi nécessité. En effet, cet outil précieux va nous permettre de nous débarrasser de tout ce qui n’est pas d’ordre purement « textuel ». Nos pages web sont certes des ressources précieuses pour toute étude linguistique qui se veut d’actualité, seulement elles s’encombrent généralement de tout un fatras de balises, d’images, de vidéos et autre hiéroglyphe propre à dérouter le linguiste le plus chevronné.

L’intérêt de ce navigateur on l’aura compris est qu’il est non graphique, ce qui veut dire aussi qu’en ne chargeant que du texte, lynx est rapide et n’utilise pas beaucoup de mémoire, associé au paramètre dump , il permet l’envoi des données vers la sortie standard ou vers un fichier. Lynx comme wget fonctionne sous cygwin, sa syntaxe n’est guère différente, on peut la rédiger comme suit :

lynx –dump ./pagesAspirées.html > ./pagesDumpées.txt

Son utilisation va nous permettre d’avancer dans notre travail en débarrassant nos pages aspirées de toutes leurs balises, et avec un script shell créer une troisième colonne dans notre tableau faisant ainsi correspondre à chaque URL en local une URL renvoyant à la même page ne contenant cette fois que le texte.

Dire que tout s’est déroulé comme une lettre à la poste serait un gros mensonge, après beaucoup de ratages, nous avons réussi à faire un tableau, seulement nous avons perdu des liens pour des raisons indépendantes de notre volonté, voici ce que la console de cygwin affiche :

Nous pensons tout simplement que lynx tout puissant qu’il est n’arrive pas à télécharger toutes les pages du web et que les extensions comme celle de notre exemple .php lui demeurent fermées.

Barrage en son contexte :

Maintenant que nous n’avons sous la main que du texte, nous pouvons affiner le travail en utilisant une commande qui effectue un véritable travail de filtrage sur les chaînes de caractères.
La commande egrep permet d’extraire d’une chaîne de caractères un motif donné dans une expression régulière, cette commande partage avec ses consoeurs la même syntaxe :

egrep « motif » ./fichier.txt

Généralement pour être efficace egrep est utilisée avec de nombreuses options, les principales nous les avons utilisées comme suit :

egrep –i –A 2 –B 2 « barrage » ../DUMP-TEXT/$i.txt

egrep recherche le motif "barrage" dans le fichier.txt;
avec –i comme option nous pouvons effectuer la recherche en ignorant la casse;
les options -A et -B suivies de 2 permettent de prendre 2 lignes avant le motif recherché et 2 lignes après

Notre commande veut dire que nous cherchons à extraire dans un fichier.txt le motif 'barrage' sans distinction de casse, que nous allons extraire avec lui 2 lignes avant (l'option –A 2) et 2 lignes après (l'option –B 2) . Si nous voulons que le résultat de l’extraction soit dirigé vers un autre fichier, notre commande devient :

egrep –i –A 2 –B 2 « barrage » ../DUMP-TEXT/$i.txt > fichier2.txt

Avec cette commande notre champ d’investigation devient plus restreint et gagne en précision, le mot barrage est maintenant saisi dans son contexte immédiat. Nous pouvons compléter notre tableau en utilisant un autre script shell, qui ajoutera une quatrième colonne, dans laquelle chaque URL sera liée à une page restreinte autour du mot barrage.
Ici aussi les problèmes rencontrés avec lynx se reproduisent, certains liens ne peuvent pas être téléchargés, tous présentant une extension .php.