OUTILS et COMMANDES
WGET
Wget est un gestionnaire de téléchargement
libre. Il est issu du projet GNU, il permet le téléchargement avancé
de fichiers sur des réseaux et sur Internet. Par exemple, il permet
de créer des miroirs de sites, ou d'effectuer des téléchargements
récursifs. Son nom vient de World Wide Web et de GET qui est le nom
de la commande utilisée dans le protocole HTTP pour récupérer un
fichier. Il est capable de communiquer avec les protocoles HTTP et
FTP.
(source)
wget [OPTION] [URL]
# enregistre dans
le répertoire courant les URLs contenues dans un fichier (en local)
wget -i ./url.txt
# enregistre un fichier html sous
le nom ./bonjour.html
wget -O ./ bonjour.html http://bonjour.html/
LYNX
Lynx est le nom d'un navigateur hypertexte pour Internet. Il fonctionne en mode texte, et donc seul le clavier est utilisé.
La navigation dans Lynx consiste à sélectionner le lien choisi à l'aide des touches fléchées, ou bien à faire afficher à Lynx un numéro correspondant à chaque lien et à taper le numéro du lien choisi. (source)
Son utilité dans ce programme est entre autres, pour filtrer (dumper) le texte contenu sur les pages web.
lynx [OPTION] [URL ou FICHIER]
# enregistre la page ./bonjour.html en texte brut (./bonjour.txt)
lynx -dump ./bonjour.html > ./bonjour_local.txt
# l'option -nolist permet de ne pas prendre les liens dans le dump
lynx -dump -nolist ./bonjour.html > ./bonjour_local.txt
MINIGREPMULTILINGUE
Minigrepmultilingue est un programme écrit en Perl qui permet d'extraire d'un fichier, dont on connait le codage, un motif et son contexte (des lignes contenant le motif : une ligne avant, une ligne après). (source)
perl minigrepmultilingue.pl [options] ["codagedes2fichiers"] [FichieràFiltrer] [FichierContenantLeMotif]
# traite le fichier corpus.txt ayant le codage ISO-8859-15, et le motif à chercher se trouve dans le fichier motif.txt
minigrepmultilingue.pl "ISO-8859-15" corpus.txt motif.txt
Les certaines commandes utilisées:
rm : supprime contenu d’un répertoire
mv : renomme le fichier
cat : affiche le contenu d'un fichier
echo : par défaut, affiche la chaîne de caractères sur le canal de sortie standard
read : par défaut, lit une ligne du canal d'entrée standard et la stocke dans les variables
for : boucle. Répétions nfois les commandes dans sa porté
if : (si) exécution conditionnelle; n’exécuter que si la condition est remplie ;
else : (sinon) facultatif et marque le comportement à adopter si la condition n'est pas remplie