wget / lynx / egrep / sed / minigrepmultilingue
wget est un programme qui va nous permettre d'enregistrer chacune des pages de notre liste d'URL.
La syntaxe est la suivante :
Pour plus d'informations : http://www.gnu.org/software/wget/manual/
lynx est un navigateur internet en mode texte. L'option -dump va nous permettre d'enregistrer sous forme de texte brut les pages que nous aurons aspirées avec wget.
La syntaxe n'est guère différente :
Pour plus d'informations : http://lynx.isc.org/
La commande egrep permet de chercher une expression régulière dans un fichier ou sur le flot d'entrée.
Parmi les options que propose le programme nous utiliserons :
Problème rencontré (sous Cygwin) : un bug empêche l'option -i de fonctionner en même temps que l'option -o. Dans l'exemple ci-dessous, le programme va tenir compte de la casse du motif :
Pour y remédier, nous devons spécifier toute la combinatoire :
Pour plus d'informations : http://www.gnu.org/software/grep/
sed est un programme de traitement de données textuelles. La commande s (substitute) permet de procéder à des remplacements. Le flag g (global) applique le traitement à toutes les occurrences, i permet d'ignorer la casse.
Pour plus d'informations: http://www.gnu.org/software/sed/sed.html
minigrepmultilingue est un programme écrit en Perl qui permet d'extraire d'un fichier, dont on connait le codage, un motif et son contexte. Nous l'utiliserons pour travailler sur les dumps des pages japonaises codés en UTF-8.
J'ai apporté quelques modifications à la version 2.1 du programme, de manière à avoir :
(téléchargement : minigrepmultilingue-2.1.pl)
Pour plus d'informations : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/minigrepmultilingue.htm