SCRIPT
#### Description et but du programme ####
#!/bin/bash
# Donner la main à l'utilisateur pour
indiquer où se situe le dossier contenant les fichiers où sont
enregistrer les URLs.
echo "Donnez le nom du dossier
contenant les fichiers de liens http : ";
# Lecture du
dossier/fichier(s).
read dossier;
# Donner la main à
l'utilisateur pour indiquer le nom et l'emplacement du fichier
tableau en html.
echo "Donnez le nom du fichier
html où stocker ces liens dans des tableaux : ";
read tablo;
# Nettoyage des
dossiers de traitement
rm ./CONTEXTES/*.*
rm ./DUMP-TEXT/*.*
rm
./PAGES-ASPIREES/*.*
rm ./CONCAT/*.*
# Génération du
tableau
echo "<html><head><title>tableau
de liens</title></head><body>" > $tablo;
i=1
# Début du traitement
for fichier
in `ls
$dossier`
# Pour tous les fichiers dans le dossiers
URLS
{
echo "<table
border=1>" >> $tablo;
echo "<tr><td align="center"
bgcolor=\"silver\" colspan=\"4\"><b>Fichier $fichier</b></td></tr>"
>> $tablo;
for nom in
`cat $dossier/$fichier`
{
#
Pour chaque URL dans les fichiers, rapatrie le contenu de chaque
URL.
wget -O
./PAGES-ASPIREES/$i.html
$nom
#
lynx -dump -nolist -display_charset=ISO-8859-15
$nom >
./DUMP-TEXT/$i.txt
#
Lancement du programme perl ainsi que le traitement des données
rapatriées
perl ./PROGRAMMES/minigrepmultilingue-v2.1/
minigrepmultilingue.pl "ISO-8859-15" ./DUMP-TEXT/$i.txt
./PROGRAMMES/minigrepmultilingue-v2.1/motif.txt
# Par defaut,
le fichier de sortie du "minigrepmultilingue.pl" est
resultat-extraction.html,
# d'où l'interet de le renommer à
chaque tour de boucle de telle manière à ce que corresponde
au nom du fichier en cours de traitement
mv
resultat-extraction.html ./CONTEXTES/$i.html
echo
"<tr><td><a href=\"$nom\">$nom</a></td><td><a href=\"../PAGES-ASPIREES/$i.html\">PAGE
ASPIREE</a></td><td><a href=\"../DUMP-TEXT/$i.txt\">PAGE
DUMP</a></td><td><a href=\"../CONTEXTES/$i.html\">PAGE
CONTEXTE</a></td></tr>" >> $tablo;
let "i+=1" ;
}
# Fermeture des
balises de la page html
echo
"</table>" >> $tablo;
echo "<br>"
>> $tablo;
}
echo "</body></html>" >>
$tablo;
# Génération des
fichiers concaténés
cat ./DUMP-TEXT/*.txt
> ./CONCAT/ens_DUMP-TEXT.txt
# La sortie est à
traiter sur
http://www.wordle.net/ > Create > ...
cat ./CONTEXTES/*.html
> ./CONCAT/ens_CONTEXTES.html
# La concaténation de
tous les fichiers CONTEXTES, en html