Cela nous permet de dégager cinq "sens" ou domaines différents pour le mot barrage :
- Barrière physique
- Elément constitutif de certains instruments de musique (guitare en particulier)
- Expression 'tir de barrage' en sport
Nous avons par ailleurs établit un groupe nommé 'inclassable' pour les occurrences de barrage plus difficiles à trier.
Cliquer ici pour voir l'arborescence utilisée
Les urls des pages contenant les occurrences sélectionnées sont ensuite regroupées par sens dans des fichiers au format texte.
Question technique : l'accès au corpus du Monde se fait par mot de passe, les liens vers les pages du Monde sont donc classés séparément, afin que l'on puisse les traiter plus facilement par la suite.
2.
Téléchargement des pages en local
Les pages sélectionnées sont ensuite rapatriées au moyen de l'outil Wget
wget url_de_la_page
ou dans notre cas :
wget -i fichier_contenant_les_urls
On redirige les pages vers un dossier appelé Wget qui contient des sous-dossiers par sens barrierephysique/, guitare/ etc.
3. Création d'un tableau synthétique
4.
Automatisation des tâches au moyen d'un script
Le script doit permettre d'automatiser certaines tâches. Il est du type de celui qui nous a été donné en cours.
L'utilisation du script pour créer le tableau de liens nécessite l'organisation d'une arborescence très structurée. Donc nous avons choisi l'arborescence suivante.
En étudiant ensuite le code source d'une page similaire à celle qu'on voulait obtenir et la documentation sur le bash disponible sur internet, on a modifié le programme de base pour lui faire écrire un tableau plus complet, contenant également les liens relatifs vers les pages téléchargées.
Section faisant appel à Lynx : La commande Lynx est lancée sur les fichiers téléchargées par Wget et pas directement sur les pages internet pour simplifier l'écriture du script (homogénéité des noms de fichiers, accès au Monde...).
- Nous avons par ailleurs utilisé l'option -force html pour contourner la particularité des pages dont l'url se termine par .php ou .asp, et qui posaient parfois problème. Les pages de ce type sont donc bien rapatriées et traitées par lynx et egrep, cependant le nom de ces pages pose toujours problème car il a la particularité de rendre les liens relatifs du tableau inopérants (présence de '%' et autres signes dans le lien réel). Nous n'avons pas eu le temps de traiter ce problème précis.
Section utilisant la commande egrep : on a progressivement affiné la commande afin d'obtenir le meilleur résultat possible (utilisation de l'option -i pour ignorer la casse).
Nous avons observé que le traitement des caractères diacritiques posait problème. Après des recherches, il apparaît que Lynx crée des fichiers encodés en Iso-latin15, (bien que la variable locale de l'ordinateur utilisé soit UTF-8). Aucune option de lynx ne semble permettre de contrôler ce comportement. Pour plus d'homogénéité, nous ajoutons donc une redirection du résultat de la commande lynx vers la commande recode, pour recoder les fichiers 'dumpés' en utf8.
Ce script prend également en charge la création d'un tableau listant les liens vers chaque fichier (page sur internet, page rapatriée en html, fichier au format .txt de la page et fichier contenant seulement les occurrences), triés par sens du mot (selon les noms des répertoires dans lesquels on avait classé les urls au départ.)