ALGORITHME

Entrée

1) L'utilisateur saisit le répertoire contenant les fichiers .txt avec les listes des URL.

2) L'utilisateur saisit le nom du fichier-résultat HTML (sans l'extension) qui va être genéré par le script.

Créer l'environnement de travail

1) La création des répertoires de travail dans le dossier courant (à partir du quel le script est lancé):

2) La création du fichier-résultat HTML dans le répertoire documentation.

Boucle 1 : lister le répertoire avec les fichiers d'URL

1) Pour chaque fichier d'URL, un tableau HTML est ajouté au fichier-résultat. Dans l'entête de ce tableaux est inscrit le nom du fichiers URL et le nom du sousrépertoire numéroté correspondant (format usageX).

2) Pour chaque fichier d'URL, un sousrépertoire numéroté (format usageX) est ajouté dans les répertoires
pages-aspirees, dump-text et contexte.

Boucle 2 : lire les fichiers d'URL

1) Pour chaque URL wget tente d'aspirer la page et de l'enregistrer dans le répertoire pages-aspirees/usageX.

2a) Si wget aspire la page HTML avec succès:

2b) Si wget ne réussit pas à aspirer la page, un message d'erreur est inscrit dans la ligne correspondante
du tableau.

Terminer les opérations

Quand tous les URL de tous les fichiers URL ont été traités, le fichier-résultat est enregistré.