Projet Barrage

Etape 3: Filtrer le texte

Nous avions désormais tout un dossier de pages html ( étape 2 ) mais c'est un format qui ne nous permet pas d'effecter les opérations nécessaires pour notre projet. Il valait mieux transformer ces pages en .txt. C'est ici que lynx entre en scène!

Lynx est un petit client web/news/ftp. Il existe sous UNIX, sous DOS, et même sous Windows 3.11 et 95.Il fonctionne en mode texte. Lorsque vous faites de la recherche de documents, et que votre bande passante est limitée (si vous êtes connecté par modem par exemple), Lynx est idéal.
(Source: http://www.ldh.org/Dossiers/Manuels/lynx.html)

Lynx a donc la capacité d'afficher les pages html en .txt mais on peut également les sauvegarder sous ce format, en redirigeant simplement le flux de sortie vers un .txt justement. Ceci se réalise en tapant la commande:

lynx -dump http://... > file.txt

Les pages ainsi filtrées ont été placées dans le dossier Dump-Text

Maintenant que ces pages sont au format .txt, on va pouvoir utiliser la commande egrep. Que fait cette commande, à quoi sert-elle? Pour le découvrir, cliquez vite sur l'Etape 4.