II
PROGRESSION DU TRAVAIL PAR ETAPES :
Etape
N°1 :
On a commencer par rechercher les 50
URL
traitant du sens de mot « barrage »
nécessaire a notre travail. On a sélectionné
trois sens ou « thèmes » de recherches
qui sont ;
( hydraulique, routier(
circulation), et
sport ( match de barrage).
On a
stocké les liens correspondant a chaque sens dans un fichier
texte a part. Après
on a appliqué la commande WGET –I pour
récupérer ces liens téléchargés et
aspirer les pages web.
Commande utilisée : WGET
–i <NOM fichier>
En utilisant cette commande on
a comme
résultat une liste de pages aspirées disponible ICI
Etape
N°2 :
En modifiant le script donné, on a transformé les
liens téléchargés et
enregistrés sous une forme texte, en liens hypertexte, en les
stockant dans des
tableaux qu’on définit dans le script.
Les résultats
après l’exécution du
script :
Pour le sens « HYDRAULIQUE »
Pour le fichier « ROUTIER »
Pour le sens « SPORT »
Etape
N°3 :
Extraire des pages Html aspirées, le texte qu’elles
contiennent. A l’aide
de la commande
Lynx –dump qu’on a
utilise dans un petit
script appliqué sur les pages html aspirées
(automatisation de la tache).
Apres ca on a appliquer sur les
textes récupérés la commande EGREP avec
l’option –i pour but d’extraire les
phrases contenant le mot « barrage »