#!/bin/bash # à exécuter dans le répertoire PROJET-BARRAGE echo "donne nom de répertoire contenant UNIQUEMENT les listes d'url (.txt)"; #c'est la liste des pages wgettées read rep; #le programme connait le répertoire sous le nom $fic ls $rep | sed 's/\.txt//g' > ./dir.txt # crée un fichier txt contenant la liste # des fichiers-listes d'url (noms sans extension) # echo "<html><;head><title>;Tableau de liens</title></head><body bgcolor="plum">" > ./JOURNAL/tablo-global.html; # code de début de tableau, pour le tableau global cd $rep for fic in `cat ../dir.txt` # pour chaque nom de fichier contenu dans le répertoire { echo "<h2 align=center><strong><font color="azure">Barrage_$fic</font></strong></h2> <TABLE border=1 bgcolor="floralwhite"> <TH bgcolor="darkmagenta"><font color="papayawhip">Liens vers la page WEB </font></TH><TH bgcolor="darkmagenta"><font color="papayawhip">Pages aspirées</font></TH> <TH bgcolor="darkmagenta"><font color="papayawhip">Pages dumpées</font></TH> <TH bgcolor="darkmagenta"><font color="magenta">Contexte</font></TH>" >> ../JOURNAL/tablo-global.html; # titre de chaque tableau, pour le tableau global echo "<html><head><title>Tableau de liens</title></head><body bgcolor="plum"> <h2 align=center><strong><font color="azure">Barrage_$fic</font></strong></h2> <table border=1 bgcolor="floralwhite"> <TH bgcolor="darkmagenta"><font color="papayawhip">Liens vers la page WEB </font></TH><TH bgcolor="darkmagenta"><font color="papayawhip">Pages aspirées</font></TH> <TH bgcolor="darkmagenta"><font color="papayawhip">Pages dumpées</font></TH> <TH bgcolor="darkmagenta"><font color="magenta">Contexte</font></TH>" > ../JOURNAL/tablo-$fic.html; #code de début de tableau et titre du tableau, pour chaque fichier-tableau i=1 # compteur reinitialisé à 1, pour chaque nouvelle liste d'url # for nom in `cat $fic.txt` # $nom est la variable dans laquelle sera stocké chaque url { wget -N --dns-timeout=60 --connect-timeout=60 -O ../PAGES-ASPIREES/$fic-$i.html $nom #aspire chaque page lynx -dump $nom > ../DUMP-TEXT/$fic-$i.txt #extrait le texte contexte=`egrep -i -A 2 -B 2 "barrage" ../DUMP-TEXT/$fic-$i.txt | perl -ne 's/(^.*[bB][aA][rR][rR][aA][gG][eE].*$)/\<i\>$1\<\/i\>/g;print' | sed 's/[bB][aA][rR][rR][aA][gG][eE]/\<strong\>\<font color=\"darkmagenta\"\> barrage\<\/font\>\<\/strong\>/g' | sed 's/$/\<br\/\>/g' ` #filtre le contexte de "barrage", met chaque "barrage" # en gras, et affecte le tout à la variable $contexte echo "<tr><td width=15%><A href="$nom">page web $i</A></td> <td width=15%><a href="../PAGES-ASPIREES/$fic-$i.html"> page aspirée $i</a></td> <td width=15%><a href="../DUMP-TEXT/$fic-$i.txt"> page dumpée $i</a></td> <td width=55%><p>$contexte</p></td></tr> <br/><br/>" >> ../JOURNAL/tablo-global.html; # echo "<tr><td width=15%><A href="$nom">page web $i</A></td> <td width=15%><a href="../PAGES-ASPIREES/$fic-$i.html"> page aspirée $i</a></td> <td width=15%><a href="../DUMP-TEXT/$fic-$i.txt"> page dumpée $i</a></td> <td width=55%><p>$contexte</p></td></tr>" >> ../JOURNAL/tablo-$fic.html; #création d'un tableau à 4 colonnes et autant de lignes # qu'il y a d'URL avec lien vers la page correspondante # stockage dans tablo-global et stockage dans chaque tableau let i=i+1 } echo "</TABLE>" >> ../JOURNAL/tablo-global.html; echo "</TABLE></body></html>" >> ../JOURNAL/tablo-$fic.html; #code de fin de tableau, fin fichier html } echo "</body></html>" >> ../JOURNAL/tablo-global.html; #code de fin de tableau, fin fichier html cd .. # revient au répertoire supérieur rm ./dir.txt # détruit le fichier dir # on a créé: un fichier-tableau pour chaque liste d'url, # plus un fichier contenant le tableau global