1. Dans le mode de sélection des pages
Dans la création de ce tableau, certaines pages ne correspondent pas au sujet (texte en pdf de Jean Veronis sur le mot barrage!), d'autres liens présentent des erreurs : [photo écran] et [photo écran], et une page présente une erreur dont nous n'arrivons pas à déterminer la source : [photo écran]. (Il semble cependant que cette erreur concerne la structure de la page elle-même, et nous ne pouvons donc pas résoudre ce probème précis.)
Problème technique : la création des liens relatifs vers les pages locales a posé problème. Il n'a été trouvé aucune solution interne aux outils bureautiques classiques (Excel, Word, OpenOffice), ni dans Nvu, malgré l'application de toutes les solutions indiquées par les diverses documentations des logiciels (modification de l'hyperlien de base dans 'Fichier'->'propriété' sous Excel, activation de la fonction 'Liens relatifs' dans 'Outils' -> 'Options' -> 'Chargement/Enregistrement', dans OpenOffice calc etc.) La liste a finalement été crée à l'aide de OpenOffice Calc, avec des liens absolus, puis le fichier obtenu a été enregistré au format html. On a ensuite transformé manuellement les liens absolus en liens relatifs dans le code source de la page html, à l'aide de Nvu.
3. Dans le script
Les problèmes de 'portabilité' du script (liés au changement fréquents des codes d'accès au corpus du Monde et au changement de chemins de fichiers selon les ordinateurs) sont résolus par la création de variables :
la variable $PWD permet de prendre le chemin correspondant à chaque machine,
et les variables $user et $password pour l'accès au Monde sont directement modifiées par l'utilisateur.
(Note
: certaines versions de wget -versions relativement anciennes- sont
incompatibles avec certaines options utilisées par le script :
l'option -o (création de
fichier log) ne fonctionne pas de la même façon et
l'option --http-password avait
une syntaxe différente dans les versions anciennes
(--http-passwd dans les versions antérieures à Wget 1.10).
Pour résoudre les problèmes (en cascade!) liés aux urls avec php ou asp, il est nécessaire de rajouter une extension .txt aux fichiers obtenus avec lynx et egrep : c'est à cette condition qu'ils sont lus sans diffcultés. Il faut donc rajouter une extension .txt aux liens relatifs vers ces pages dans le tableau des liens. L'ajout d'une extension .txt posant elle-même des problèmes (un retour chariot est automatiquement placé entre la variable et la chaîne de caractères '.txt' -cf script), nous avons utilisé la commande translate pour supprimer ces retours chariots. Note : les liens avec asp ou php ne fonctionnent toujours pas, mais cette méthode assure que les pages sont malgré tout correctement traitées par lynx et egrep, et que le plus grand nombre de liens possible fonctionne correctement.