PROJET
Auteurs
: Wu Li-Chi, Chachaty Edmond (Paris 3)
Préambule
:
Commandes
utilisées
Le projet s'est déroulé en plusieurs étapes
et s'est déroulé de manière semi-automatique, des
ajustements manuels étant nécessaires notamment pour :
- Avoir un alignement des fichiers correspondants dans le tableau principal
- Modifier le nom de quelques fichiers n'ayant pas l'extension "html"
- Modifier le nom des fichiers dans le tableau principal
Ces modifications ont eu lieu avec des commandes du shell
Etape 1
Créer
un fichier texte contenant les URL des pages à aspirer
Récupérer
les fichiers sur Internet
wget
--http-user="plurital" --http-passwd="monmotdepasse" -i DocsLeMonde.txt :
Documents Le Monde
Créer les fichiers html correspondant avec le programme :
tache1.txt
Créer les liens sur les fichiers dumpés en utilisant le programme :
tache1.txt
Etape 2
Créer les fichiers lynxés avec le programme :
tache2.txt
Créer les liens sur les
fichiers lynxés en utilisant le programme :
tache1.txt
Etape 3
Créer les fichiers egrep avec le programme :
tache3.txt
Créer les liens sur les
fichiers egrep en utilisant le programme :
tache1.txt
Etape 4
Intégration des
différents tableaux dans un seul tableau par copier / coller
directement dans "NVU" , en modifiant les adresses des fichiers avec la
fonction "Rechercher / Remplacer"
Commentaire
Il serait possible de regrouper ces
étapes successives en moins d'étapes en affinant
les trois programmes et / ou en utilisant la commande "pipe |" dans le
shell.
De même, les commandes egrep pourraient être affinées en leur donnant plus d'arguments.
Tableau
synthétique
:
Usage
du mot "barrage" dans Le Monde |
Fichiers
téléchargés |
Fichiers
sur le disque dur |
Fichiers
textes |
Fichiers
contextes |
|
|
|
|
Usage
du mot "barrage" dans la politique sur Google |
|
|
|
|
Usage
général du mot "barrage" sur Altavista |
|
|
|
|