Projet Barrage

Etape 5: Les tableaux

Et voici ce que nous avons fait pour arriver à notre script final:

A. Rajout de la troisième colonne:

Nous sommes donc parties du programme fait-tableau-v1.sh et nous avons tout d'abord ajouté la commande lynx qui crée un fichier contenant uniquement le texte:
lynx -dump $nom>./DUMP-TEXT/$dossier/$j.txt

Comme nous avons fait le choix de stocker les listes d'urls dans des fichiers différents suivant leur sens, un tableau sera créé pour chaque définition du mot. Notre script commence donc par demander à l'utilisateur le nom du fichier contenant la liste d'urls dont il souhaite obtenir le tableau, puis suivant le nom entré, les variables $tablo, $titre et $dossier définissent respectivement le nom du fichier où sera enregistré le tableau, le titre du tableau et le nom du dossier créé pour cet usage dans les dossiers de l'arborescence.

Pour créer les nouveaux dossiers nous avons utilisé la commande mkdir
mkdir ./DUMP-TEXT/$dossier
mkdir ./CONTEXTES/$dossier
mkdir ./PAGES-ASPIREES/$dossier


B. Rajout de la quatrième colonne:

La quatrième colonne du tableau représente le contexte immédiat de "barrage" dans les pages web sélectionnées. Nous avons donc utilisé la commande
egrep -i -A 2 -B 2 "barrage." ./DUMP-TEXT/$dossier/$j.txt > ./CONTEXTES/$dossier/$k.txt
qui s'effectue sur les pages lynxées précédemment.


C. Complication du script:

Les listes d'urls étant au nombre de six, nous avons mis une boucle
for ((a=1; a <= LIMITE ; a++))
do
,
$a représentant le nombre de nom fichier entré, qui permet au programme de redemander un nom jusqu'à ce que les six fichiers aient été traités. Ou le même fichier traité six fois de suite, cela dépend de la bonne volonté de l'utilisateur.

Chaque tableau étant stocké sur un fichier séparé, nous avons créé un nouveau tableau Index.html permettant d'accéder à tous les tableaux plus aisément. Il est automatiquement généré à la fin si tous les tableaux des différents sens sont demandés, mais nous avons aussi introduit la possibilité de ne créer que l'index (dans la mesure où tous les tableaux existent déjà), en attribuant la valeur 8 à la variable $a si $fic (le nom du fichier entré) est égal à index, puis
if [ "$a" != "8" ]
then

avant la commande de création du tableau.

Nous avons aussi ajouté la possibilité de créer un tableau regroupant tous les liens, sans distinction de sens:
Liste de tous les sens
en tapant tout.txt qui met fin à la boucle.


D. Problèmes:

Nous avons d'abord dû retirer plusieurs urls de pages web dont le contenu avait été modifié et qui ne correspondaient plus à notre recherche.
Problème plus grave, pour une raison inconnue quelques uns des fichiers contenant les contextes sont vides, alors que les pages lynxées sur lesquelles egrep a fonctionné contiennent le mot "barrage".