Cours Projet encadré 2013-2014 - plurital.org
Projet : la vie des mots sur le web
Le script construisant les tableaux ci-dessous utilisent une partie des fichiers d'URL utilisés par un groupe d'étudiants 2012/2013 qui a travaillé sur le projet "Américanisation"
La Thématique : Américanisation
CF http://www.tal.univ-paris3.fr/plurital/travaux-2012-2013/projets-2012-2013-S1/Bawden-Megahed-bg/Pages/index.html
On a en sortie ici 3 tableaux (un pour chaque fichier d'URL en entrée). Chaque tableau contient les colonnes suivantes :
PAGES ASPIREES : lien vers la page associée à l'URL visée
DUMP initial(non utf-8) : si la page aspirée n'est pas en UTF-8, on a un DUMP dans l'encodage initial
DUMP utf-8 : le DUMP de la page en UTF-8 (obtenu soit directement soit par conversion du précédent)
CONTEXTES utf-8 : extraction des contextes (dans le fichier précédent)
CONTEXTES HTML : extraction des contextes au format HTML (via le programme minigrep en perl)
INDEX : un fichier "dictionnaire" du DUMP i.e tous les mots associés à leur fréquence
On trouve aussi au bas de chaque tableau :
(1) le fichier concaténant tous les DUMPs du même tableau
(2) le fichier concaténant tous les contextes du même tableau
et le dictionnaire des 2 précédents fichiers.
Les fichiers (1) et (2) seront utilisés dans la seconde partie du projet.Ci-dessous, l'ossature du script utilisé (c'est une proposition possible, d'autres sont possibles) :
Le mot "magique" est : \bam.ri(c|q)\w+\b (i.e. une regexp pour attraper le maximum de forme autour du thème choisi... on pourrait faire mieux ici)
Les TABLEAUX de données