Cours Projet encadré 2011-2012 - plurital.org
Projet : la vie des mots sur le web
FOR : Pour chacun des fichiers de liens contenus dans un répertoire donné :
- On crée un tableau pour chaque fichier d'URL lu.
- FOR : Pour chaque URL lue dans un des fichiers de liens, on effectue le traitement suivant :
- On récupère le contenu de la page associée à l'URL via la commande curl
- SI pas d'erreur détectée par la commande curl :
- ALORS :
- on essaie de détecter l'encodage de la page aspirée via la commande file (file -i page...)
- SI l'encodage détecté est UTF-8 :
- ALORS : on récupère le contenu textuel de la page aspirée via la commande lynx, on extrait le contexte autour du mot magique (via les commandes egrep et perl) et on écrit le résultat dans le tableau
- AUTREMENT :
- on essaie de verifier si la page aspirée au format HTML contient un charset dans son entête
- SI le charset extrait est compatible avec les charsets connus par la commande iconv
- ALORS : on extrait le contenu textuel de la page aspirée via la commande lynx, on convertit ce contenu textuel en utf8, on extrait le contexte autour du mot magique (via les commandes egrep, perl) et on écrit le résultat dans le tableau
- AUTREMENT : on n'écrit dans le tableau que le lien vers la page aspirée
- AUTREMENT on fait rien
Le script en action :
Le script : ici
Le mot magique est : le
Les TABLEAUX de données
Tableau n° 1
fichier : liens.txtn°URL URL PAGES ASPIREES DUMP initial
(non utf-8)DUMP utf-8
MOTIF : leCONTEXTES utf-8
MOTIF : leCONTEXTES HTML
MOTIF : le1 http://www.madore.org/~david/weblog/ 1.html - 1-utf8.txt 1-utf8.txt 1-utf8.html 2 http://tal.univ-paris3.fr/plurital/ 2.html 2.txt
(iso-8859-1)2-utf8.txt 2-utf8.txt 2-utf8.html 3 http://tal.univ-paris3.fr/trameur/ 3.html 3.txt
(ISO-8859-1)3-utf8.txt 3-utf8.txt 3-utf8.html 4 http://house.focus.cn/news/2007-02-26/285249.html 4.html Encodage
non détectéEncodage
non détectéEncodage
non détectéEncodage
non détecté5 http://www.adab.com/modules.php?name=Sh3er&doWhat=shqas&qid=6124 5.html 5.txt
(windows-1256)5-utf8.txt 5-utf8.txt 5-utf8.html   Fichier DUMP
global
4 fichier(s)Fichier CONTEXTES
global
4 fichier(s) 
Tableau n° 2
fichier : liens2.txtn°URL URL PAGES ASPIREES DUMP initial
(non utf-8)DUMP utf-8
MOTIF : leCONTEXTES utf-8
MOTIF : leCONTEXTES HTML
MOTIF : le1 http://www.madore.org/~david/weblog/ 1.html - 1-utf8.txt 1-utf8.txt 1-utf8.html 2 http://tal.univ-paris3.fr/plurital/ 2.html 2.txt
(iso-8859-1)2-utf8.txt 2-utf8.txt 2-utf8.html 3 http://tal.univ-paris3.fr/trameur/ 3.html 3.txt
(ISO-8859-1)3-utf8.txt 3-utf8.txt 3-utf8.html   Fichier DUMP
global
3 fichier(s)Fichier CONTEXTES
global
3 fichier(s) 
Tableau n° 3
fichier : url-hydro-1.txtn°URL URL PAGES ASPIREES DUMP initial
(non utf-8)DUMP utf-8
MOTIF : leCONTEXTES utf-8
MOTIF : leCONTEXTES HTML
MOTIF : le1 http://www.barrage.com/index.html 1.html Encodage
non détectéEncodage
non détectéEncodage
non détectéEncodage
non détecté2 http://www.edf.fr/energie_hydro.html 2.html Encodage
non détectéEncodage
non détectéEncodage
non détectéEncodage
non détecté3 http://www.un_amour_de_barrage.fr/durance.htm Page non aspiree... Encodage
non détectéEncodage
non détectéEncodage
non détectéEncodage
non détecté  Fichier DUMP
global
0 fichier(s)Fichier CONTEXTES
global
0 fichier(s) 
Tableau n° 4
fichier : url-hydro-2.txtn°URL URL PAGES ASPIREES DUMP initial
(non utf-8)DUMP utf-8
MOTIF : leCONTEXTES utf-8
MOTIF : leCONTEXTES HTML
MOTIF : le1 http://www.barrage.com/index.html 1.html Encodage
non détectéEncodage
non détectéEncodage
non détectéEncodage
non détecté  Fichier DUMP
global
0 fichier(s)Fichier CONTEXTES
global
0 fichier(s) 
On introduira dans le script précédent un traitement complémentaire permettant d'ajouter une colonne supplémentaire dans laquelle on insèrera le nombre d'occurrence de la forme étudiée dans la page (l'URL) associée. On pourra aussi calculer la fréquence totale pour l'ensemble des pages.
Plurital 2011/2012. Cours Projet Encadré. J.M. Daube, S. Fleury, R. Belmouhoub. http://tal.univ-paris3.fr/plurital/