Nous sommes donc parties du programme fait-tableau-v1.sh et nous avons
tout d'abord ajouté la commande lynx qui crée un fichier contenant uniquement
le texte:
lynx -dump $nom>./DUMP-TEXT/$dossier/$j.txt>
Comme nous avons fait le choix de stocker les listes d'urls dans des fichiers différents suivant leur sens, un tableau sera créé pour chaque définition du mot. Notre script commence donc par demander à l'utilisateur le nom du fichier contenant la liste d'urls dont il souhaite obtenir le tableau, puis suivant le nom entré, les variables $tablo, $titre et $dossier définissent respectivement le nom du fichier où sera enregistré le tableau, le titre du tableau et le nom du dossier créé pour cet usage dans les dossiers de l'arborescence.
Pour créer les nouveaux dossiers nous avons utilisé la commande mkdir
mkdir ./DUMP-TEXT/$dossier
mkdir ./CONTEXTES/$dossier
mkdir ./PAGES-ASPIREES/$dossier
La quatrième colonne du tableau représente le contexte immédiat de "barrage" dans
les pages web sélectionnées. Nous avons donc utilisé la commande
egrep -i -A 2 -B 2 "barrage." ./DUMP-TEXT/$dossier/$j.txt > ./CONTEXTES/$dossier/$k.txt
qui s'effectue sur les pages lynxées précédemment.
Les listes d'urls étant au nombre de six, nous avons mis une boucle
for ((a=1; a <= LIMITE ; a++))
do,
$a représentant le nombre de nom fichier entré, qui permet au programme de
redemander un nom jusqu'à ce que les six fichiers aient été traités. Ou le même fichier
traité six fois de suite, cela dépend de la bonne volonté de l'utilisateur.
Chaque tableau étant stocké sur un fichier séparé, nous avons créé un nouveau
tableau Index.html permettant
d'accéder à tous les tableaux plus aisément. Il est automatiquement généré à la fin si tous
les tableaux des différents sens sont demandés, mais nous avons aussi introduit la
possibilité de ne créer que l'index (dans la mesure où tous les tableaux existent déjà),
en attribuant la valeur 8 à la variable $a si $fic (le nom du fichier entré) est égal à index,
puis
if [ "$a" != "8" ]
then
avant la commande de création du tableau.
Nous avons aussi ajouté la possibilité de créer un tableau regroupant tous les
liens, sans distinction de sens:
Liste de tous les sens
en tapant tout.txt qui met fin à la boucle.
Nous avons d'abord dû retirer plusieurs urls de pages web dont le contenu avait été modifié
et qui ne correspondaient plus à notre recherche.
Problème plus grave, pour une raison inconnue quelques uns des fichiers contenant
les contextes sont vides, alors que les pages lynxées sur lesquelles egrep a fonctionné
contiennent le mot "barrage".