Cours Projet encadré 2011-2012 - plurital.org

Projet : la vie des mots sur le web


(retour page projet)

Que fait le programme ?

FOR : Pour chacun des fichiers de liens contenus dans un répertoire donné :

  • On crée un tableau pour chaque fichier d'URL lu.
  • FOR : Pour chaque URL lue dans un des fichiers de liens, on effectue le traitement suivant :
    • On récupère le contenu de la page associée à l'URL via la commande curl
    • SI pas d'erreur détectée par la commande curl :
      • ALORS :
        • on essaie de détecter l'encodage de la page aspirée via la commande file (file -i page...)
        • SI l'encodage détecté est UTF-8 :
          • ALORS : on récupère le contenu textuel de la page aspirée via la commande lynx, on extrait le contexte autour du mot magique (via les commandes egrep et perl) et on écrit le résultat dans le tableau
          • AUTREMENT :
            • on essaie de verifier si la page aspirée au format HTML contient un charset dans son entête
            • SI le charset extrait est compatible avec les charsets connus par la commande iconv
              • ALORS : on extrait le contenu textuel de la page aspirée via la commande lynx, on convertit ce contenu textuel en utf8, on extrait le contexte autour du mot magique (via les commandes egrep, perl) et on écrit le résultat dans le tableau
              • AUTREMENT : on n'écrit dans le tableau que le lien vers la page aspirée
      • AUTREMENT on fait rien


Le script en action :

Le script : ici


Exemple de sorties

Le mot magique est : le

Les TABLEAUX de données

Tableau n° 1

fichier : liens.txt
n°URLURLPAGES ASPIREESDUMP initial
(non utf-8)
DUMP utf-8
MOTIF : le
CONTEXTES utf-8
MOTIF : le
CONTEXTES HTML
MOTIF : le
1http://www.madore.org/~david/weblog/ 1.html - 1-utf8.txt1-utf8.txt1-utf8.html
2http://tal.univ-paris3.fr/plurital/ 2.html2.txt
(iso-8859-1)
2-utf8.txt2-utf8.txt2-utf8.html
3http://tal.univ-paris3.fr/trameur/ 3.html3.txt
(ISO-8859-1)
3-utf8.txt3-utf8.txt3-utf8.html
4http://house.focus.cn/news/2007-02-26/285249.html 4.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
5http://www.adab.com/modules.php?name=Sh3er&doWhat=shqas&qid=6124 5.html5.txt
(windows-1256)
5-utf8.txt5-utf8.txt5-utf8.html
 Fichier DUMP
global

4 fichier(s)
Fichier CONTEXTES
global

4 fichier(s)
 


Tableau n° 2

fichier : liens2.txt
n°URLURLPAGES ASPIREESDUMP initial
(non utf-8)
DUMP utf-8
MOTIF : le
CONTEXTES utf-8
MOTIF : le
CONTEXTES HTML
MOTIF : le
1http://www.madore.org/~david/weblog/ 1.html - 1-utf8.txt1-utf8.txt1-utf8.html
2http://tal.univ-paris3.fr/plurital/ 2.html2.txt
(iso-8859-1)
2-utf8.txt2-utf8.txt2-utf8.html
3http://tal.univ-paris3.fr/trameur/ 3.html3.txt
(ISO-8859-1)
3-utf8.txt3-utf8.txt3-utf8.html
 Fichier DUMP
global

3 fichier(s)
Fichier CONTEXTES
global

3 fichier(s)
 


Tableau n° 3

fichier : url-hydro-1.txt
n°URLURLPAGES ASPIREESDUMP initial
(non utf-8)
DUMP utf-8
MOTIF : le
CONTEXTES utf-8
MOTIF : le
CONTEXTES HTML
MOTIF : le
1http://www.barrage.com/index.html 1.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
2http://www.edf.fr/energie_hydro.html 2.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
3http://www.un_amour_de_barrage.fr/durance.htmPage non aspiree...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
 Fichier DUMP
global

0 fichier(s)
Fichier CONTEXTES
global

0 fichier(s)
 


Tableau n° 4

fichier : url-hydro-2.txt
n°URLURLPAGES ASPIREESDUMP initial
(non utf-8)
DUMP utf-8
MOTIF : le
CONTEXTES utf-8
MOTIF : le
CONTEXTES HTML
MOTIF : le
1http://www.barrage.com/index.html 1.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
 Fichier DUMP
global

0 fichier(s)
Fichier CONTEXTES
global

0 fichier(s)
 


Compter

On introduira dans le script précédent un traitement complémentaire permettant d'ajouter une colonne supplémentaire dans laquelle on insèrera le nombre d'occurrence de la forme étudiée dans la page (l'URL) associée. On pourra aussi calculer la fréquence totale pour l'ensemble des pages.

 

Plurital 2011/2012. Cours Projet Encadré. J.M. Daube, S. Fleury, R. Belmouhoub. http://tal.univ-paris3.fr/plurital/