...                                                                                                                                                                                                                                             

Nous sommes le

:  

SCRIPT



 

#### Description et but du programme ####

 

 

#!/bin/bash

#     Donner la main à l'utilisateur pour indiquer où se situe le dossier contenant les fichiers où sont enregistrer les URLs.

echo "Donnez le nom du dossier contenant les fichiers de liens http : ";
 


#     Lecture du dossier/fichier(s).
read dossier;
 


#     Donner la main à l'utilisateur pour indiquer le nom et l'emplacement du fichier tableau en html.
echo "Donnez le nom du fichier html où stocker ces liens dans des tableaux : ";
read tablo;
 


#     Nettoyage des dossiers de traitement
rm ./CONTEXTES/*.*
rm ./DUMP-TEXT/*.*
rm ./PAGES-ASPIREES/*.*
rm ./CONCAT/*.*
 


#     Génération du tableau
echo "<html><head><title>tableau de liens</title></head><body>" > $tablo;
i=1
 


#     Début du traitement
for fichier in `ls $dossier`        #     Pour tous les fichiers dans le dossiers URLS
{
    echo "<table border=1>" >> $tablo;
  echo "<tr><td align="center" bgcolor=\"silver\" colspan=\"4\"><b>Fichier $fichier</b></td></tr>" >> $tablo;


    for nom in `cat $dossier/$fichier`
    {
 


    #     Pour chaque URL dans les fichiers, rapatrie le contenu de chaque URL.
    wget -O ./PAGES-ASPIREES/$i.html $nom
 


    #    
    lynx -dump -nolist -display_charset=ISO-8859-15 $nom > ./DUMP-TEXT/$i.txt

    #     Lancement du programme perl ainsi que le traitement des données rapatriées
  perl ./PROGRAMMES/minigrepmultilingue-v2.1/ minigrepmultilingue.pl "ISO-8859-15" ./DUMP-TEXT/$i.txt ./PROGRAMMES/minigrepmultilingue-v2.1/motif.txt

  #     Par defaut, le fichier de sortie du "minigrepmultilingue.pl" est resultat-extraction.html,
    #     d'où l'interet de le renommer à chaque tour de boucle de telle manière à ce que corresponde    au nom du fichier en cours de traitement

    mv resultat-extraction.html ./CONTEXTES/$i.html

    echo "<tr><td><a href=\"$nom\">$nom</a></td><td><a href=\"../PAGES-ASPIREES/$i.html\">PAGE ASPIREE</a></td><td><a href=\"../DUMP-TEXT/$i.txt\">PAGE DUMP</a></td><td><a href=\"../CONTEXTES/$i.html\">PAGE CONTEXTE</a></td></tr>" >> $tablo;
    let "i+=1" ;
    }
 


#     Fermeture des balises de la page html
    echo "</table>" >> $tablo;
    echo "<br>" >> $tablo;
}
echo "</body></html>" >> $tablo;


#     Génération des fichiers concaténés
cat ./DUMP-TEXT/*.txt > ./CONCAT/ens_DUMP-TEXT.txt               #     La sortie est à traiter sur http://www.wordle.net/ > Create > ...


cat ./CONTEXTES/*.html > ./CONCAT/ens_CONTEXTES.html         #     La concaténation de tous les fichiers CONTEXTES, en html
 

 

¤¤¤ Télécharger le script ¤¤¤


Isiaka Ibrahim

Master Pro - INALCO

La Vie des Mots sur le Web : Fitiavana | Amour | Love