1) L'utilisateur saisit le répertoire contenant les fichiers .txt avec les listes des URL.
2) L'utilisateur saisit le nom du fichier-résultat HTML (sans l'extension) qui va être genéré par le script.
1) La création des répertoires de travail dans le dossier courant (à partir du quel le script est lancé):
wget
qui seront classées dans des sous-répertoires numérotés pour chaque fichier d'URL.lynx
qui seront classés dans des sous-répertoires numérotés pour chaque fichier d'URL.2) La création du fichier-résultat HTML dans le répertoire documentation.
1) Pour chaque fichier d'URL, un tableau HTML est ajouté au fichier-résultat. Dans l'entête de ce tableaux est inscrit le nom du fichiers URL et le nom du sousrépertoire numéroté correspondant (format usageX).
2) Pour chaque fichier d'URL, un sousrépertoire numéroté (format usageX) est ajouté dans les répertoires
pages-aspirees, dump-text et contexte.
1) Pour chaque URL wget
tente d'aspirer la page et de l'enregistrer dans le répertoire pages-aspirees/usageX.
2a) Si wget
aspire la page HTML avec succès:
wget
: la page est enregistrée dans le répertoire pages-aspirees/usageXlynx -dump
: le texte débalisé de la page aspirée est enregistré dans un fichier .txt dans le répertoire dump-text/usageXegrep
: le contexte du mot barrage est nettoyé et enregistré dans un fichier .txt dans contextes/usageX.2b) Si wget
ne réussit pas à aspirer la page, un message d'erreur est inscrit dans la ligne
correspondante
du tableau.
Quand tous les URL de tous les fichiers URL ont été traités, le fichier-résultat est enregistré.