Etape3: Récupération du texte des pages web avec lynx
Pour récupérer les textes (brut) des pages aspirées par la commande wget , nous avons utilisé la commande lynx.
Lynx navigateur web qui fonctionne en mode texte et comme wget dans l'environnement linux ou cygwin avec la même syntaxe:
lynx [option]...[argument]...
Lynx peut être utilisé pour
accéder à des informations présentes sur le web
avec différentes options. Celle que nous avons utilisé
Lest -dump
EX: lynx -dump ../PAGES-ASPIREES/usage_musique/$i.html > ../DUMP-TEXT/usage_musique/$i.txt
../PAGES-ASPIREES/usage_musique/$i.html: Le chemin des pages web (i.html) aspirées par wget.
../DUMP-TEXT/usage_musique/ : Le chemin de répertoire qui va contenir les pages web "dumpées" en format texte (ex: i.txt).
<Précédent Suivant>