Le travail a été réalisé en trois étapes successives :
L'exercice était de collectionner sur Internet une cinquantaine d'URL contenant le mot barrage dans ses différents usages sémantiques (environ une dizaine d'URL par usage). Le but étant d'obtenir un petit corpus afin d'observer l'usage de ce mot et d'en tirer des conclusions d'ordre linguistique.
Une remarque méthodologique :
Si nous voulions prendre la constitution de notre corpus au sérieux, c'est à dire de prendre en compte son application linguistique (ce qui n'était naturellement pas le cas ce semestre, car l'objectif du cours était surtout l'initiation aux techniques de base), il faudrait nous interroger sur la cohérence de notre démarche.
Nous voulons faire des observations sur l'usage du mot barrage dans des textes prélévés sur Internet mais la condition de doser a priori nos URL par usage oriente forcément la composition de notre corpus. Ainsi, au lieu de constituer un corpus suffisamment grand pour pouvoir en extraire une classification des usages basée sur notre étude empirique du matériel concret, avec des informations supplémentaires concernant la fréquence ; nous prenons une classification déjà existante (TLFi, Petit Robert, etc.) sans la vérifier et nous attribuont à chaque usage la même importance du point de vue quantitatif.
Pour obtenir mes URL, j'ai effectué tout d'abord une recherche générale avec Google.
Les options de recherche :
Google dit : Résultats 1 - 100 sur un total d’environ 3 850 000 pages en français pour barrage OR barrages.
J'ai utilisé grep
pour extraire les lignes contenant des URL dans le fichier HTML contenant la recherche Google (egrep "http://[^0-9]" recherchegoogle.html
) et j'ai constitué une grande liste d'URL non triés.
Classement des pages aspirées
Il a fallu parcourir la liste des URL, vérifier les pages aspirées, considérer leur pertinence et les classer en fonction de l’emploi du mot barrage d’après des critères sémantiques. Pour ceci, j’ai exploré l’entrée ‘barrage’ dans le TLFi et je m’en suis servi pour donner les noms aux fichiers contenant les URL :
La vérification de la pertinence des pages et leur tri m’a pris eviron une heure et demi, donc c’est une tâche assez laborieuse.
Lors de ma recherche de 100 pages avec Google, le problème de répartition des usages s'est manifesté. La plupart des pages recensées contenaient le mot barrage dans son usage hydraulique et aucune pour, par exemple, son usage médical (test de barrage). J'ai donc recherché à nouveau des pages web contenant ces usages en spécifiant le contexte possible de barrage pendant ma seconde recherche sur Google. Par exemple "barrage guitare" "test de barrage" "tir de barrage" etc. J'ai rajouté ces URL dans les listes, non remplies lors de la première recherche, pour que chaque fichier en contienne à peu près le même nombre.
Au départ, un script, produisant un simple tableau avec une colonne, nous a été fourni et expliqué par les enseignants. L'exercice était de le modifier et de le rendre plus complexe pour remplir les objectifs. Tout ce qui concerne l'écriture du script est présenté dans algorithme, commandes et script.
L'écriture de ce rapport a été la tâche de loin la plus longue. Le temps passé sur le contenu des pages et le temps passé sur leur forme (mise en page, style CSS) étaient à peu près identiques. Je voudrais poster ici les liens vers les sites qui m'ont beaucoup aidé pendant cette étape.