Etape2: Aspiration des pages web avec wget.
Après avoir séléctionner les pages web qui renvoient aux différents sens du mot "Barrage"
nous avons enregitré leurs Urls (Adresse web) dans des
fichiers textes selon l'usage. Ce qui nous donne 5 fichiers (usage_hydro, usage_musique, usage_opposition, usage_routier et usage_sport) .
Ces listes d'Urls nous ont permis d'aspirer leurs pages web à l'aide de la commande wget.
Donc, wget est un
aspirateur de sites web (http ou ftp), utilisé dans
l'environnement linux ou cygwin (shell), elle permet de copier en local
(sur le disque de l'ordinateur) l'intégralité d'un site
ou une page.
La commande wget fonctionne sur la syntaxe unix: commande [option1][option2]...[argument]... (EX: wget -O http://adresse_web).
Les options de wget sont nombreuses, voici quelques une:
-V ou --version: Affiche la version de Wget.
-h ou --help : Affiche un message d'aide décrivant toutes les options de ligne de commande de
Wget.
-q ou --quiet : Désactive la sortie de Wget.
-i fichier ou --input-file=fichier :Lit les URL depuis fichier. Dans ce cas,
aucune URL n'est requise sur la ligne de commande. S'il y a des URL sur la ligne
de commande et dans un fichier d'entrée, celles de la ligne de commande sont
téléchargées en premier. fichier n'est pas nécessairement un document HTML, une
simple liste d'URL convient également.
-O fichier ou --output-document=fichier: Les documents ne seront pas écrits dans les
fichiers appropriés, mais tous concaténés les uns aux autres et écrits dans
fichier. Si fichier existe déjà, il sera remplacé. Si fichier vaut -, les
documents seront écrits sur la sortie standard. Cette option positionne
automatiquement le nombre de tentatives à 1.
Dans notre projet, nous avons utilisé la commande wget avec l'option -O
et comme argument le nom de fichier qui contient la liste des URL.
EX: $ wget -O ../PAGES-ASPIREES/usage_hydro/$i.html $nom (
PAGES-ASPIREES/usage_hydro/: le nom de répertoire qui va
contenir les pages aspirées, i.html: le nom des pages
enregistrées sur le disque où i c'est la variable
initialisée à 1, qui s'incrimente (+1) à chaque
lecture d'une URL dans le fichier nom)
<Précédent Suivant>