Cours Projet encadré - plurital.org
Projet "La vie multilingue des mots sur le web"
Les différentes étapes d'écriture des scripts
de traitement des pages contenant les mots choisis
(retour page d'accueil du cours)
Les marches (les colonnes...) de la gloire !!!! |
Ci-dessous, la chaîne de traitements à mettre en oeuvre sur une URL :
Figure(s) 0 : Schéma(s) du projet
On décrit ci-dessous le parcours à suivre pour mener à bien ce projet. Le code présenté infra (qui sera détaillé en cours et à mettre en oeuvre sur ses propres données) est essentiellement du bash. Le projet vise aussi à construire des scripts en Perl pour arriver à des résultats similaires.
Au final, on devra donc construire 2 séries de script (une en Bash et l'autre en Perl), ces scripts devront réaliser les différentes tâches décrites au fur et à mesure du cours (voir aussi le fil de la progression ci-dessous illustré ci-dessous avec Bash).
Des exemples (solutions) de script Perl seront ajoutés au fil du projet sur cette page pour vous aider à progresser (à l'image des scripts bash déjà disponibles) .
Bonus : on n'hésitera pas à aller regarder très souvent ce travail réalisé par certains de vos prédécesseurs qui ont déjà réalisé ce double parcours Bash/Perl :
http://www.tal.univ-paris3.fr/plurital/travaux-2009-2010/projets-2009-2010-S1/AxelKunMarjo/SITE/perl.html
Une lecture nécessaire pour démarrer : "Unix for the Beginning Mage"
La figure ci-dessous donne un exemple de ce que pourrait être l'arborescence des fichiers constituant le projet. Chaque dossier porte un nom donnant une indication sur le type de fichiers qu'il contiendra :
En prenant comme modèle l'arborescence de travail décrite dans la figure ci-dessus, écrire un script qui va construire cette arborescence... (solution)
L'arborescence étant créée, déposez vos fichiers d'urls dans le dossier idoine.
Les scripts utilisés infra ont été construits de telle sorte que leur exécution nécessite que l'on se positionne au préalable à la racine de l'arborescence précédente (le dossier PROJET-MOT-SUR-LE-WEB). Dans l'exemple traité ici, ce dossier se situe sur le bureau du compte utilisateur (sous Windows). La première commande passée ci-dessous (la commande cd...) consiste donc à se déplacer dans le dossier de travail :
Objectif : Lire un fichier contenant une liste d'URL et produire un fichier HTML contenant un tableau (à 1 colonne) regroupant ces URLs
1 | http://lien1.com |
2 | http://lien2.com |
3 | http://lien3.com |
4 | http://lien4.com |
Objectif : Lire un fichier contenant une liste d'URL, produire un fichier HTML contenant un tableau (à 2 colonnes) regroupant (1) ces URLs et (2) les pages aspirées correspondantes. Etablir les liens vers les 2 ressources (URL, page locale).
On commencera par regarder les transparents du cours (slides 78-79).
Dans l'exemple précédent, on utilise wget (puis d'autres commandes) pour récupérer des adresses mails dans une page HTML...
Objectif : Lire un
fichier contenant une liste d'URL, produire un fichier HTML
contenant un tableau (à 3 colonnes)
regroupant (1)
ces URLs, (2)
les pages aspirées
correspondantes,(3)
les DUMPS des pages aspirées obtenus avec lynx. Etablir
les liens vers les 3 ressources (URL, page
locale, dump).
Contrainte supplémentaire : le fichier dump devra être converti en utf8 i.e conversion d'encodage en utf8 si nécessaire
Exemple de résultat attendu :
n° | URL | PAGES ASPIREES | DUMP initial | DUMP utf-8 |
1 | http://www.madore.org/~david/weblog/ | 1.html | 1-utf8.txt | |
2 | http://tal.univ-paris3.fr/plurital/ | 2.html | 2.txt (iso-8859-1) | 2-utf8.txt |
3 | http://tal.univ-paris3.fr/trameur/ | 3.html | 3.txt (ISO-8859-1) | 3-utf8.txt |
On commencera par regarder les transparents du cours (slides 83-88).
Objectif : Lire un (ou plusieurs) fichier(s) contenant une liste d'URL, produire un fichier HTML contenant un (ou plusieurs) tableau(x) (à 3 colonnes chacun) regroupant (1) ces URLs, (2) les pages aspirées correspondantes, (3) les DUMPS des pages aspirées obtenus avec lynx. Etablir les liens vers les 3 ressources (URL, page locale, dump)
Objectif : Lire un (ou plusieurs) fichier(s) contenant une liste d'URL, produire un fichier HTML contenant un (ou plusieurs) tableau(x) (à 4 colonnes chacun) regroupant (1) ces URLs, (2) les pages aspirées correspondantes, (3) les DUMPS des pages aspirées obtenus avec lynx, (4) les contextes obtenus avec egrep. Etablir les liens vers les 4 ressources (URL, page locale, dump, contexte)
On commencera par regarder les transparents du cours ci-dessus (slides 92-104) ou sur iCampus.
On introduira une colonne supplémentaire dans laquelle on insèrera le nombre d'occurrence de la forme étudiée dans la page (l'URL) associée. On pourra aussi calculer la fréquence totale pour l'ensemble des pages.
- Présentation du projet : transparents du cours.
- Introduction à Unix : transparents du cours.
- Introduction à HTML : on regardera par exemple cette page sur webplatform.org
- Bash : Manuel Bash en ligne.
- Perl : Tutorial Perl . The tutorial is split into twenty-one sections, although you'll probably find it easier if you start from the beginning, especially if you're new to Perl. Lessons zero to ten deal with the basics, and the rest deal with more advanced topics, like servers, perl's guts, and parsing. Lesson 12 seems particularly popular: it deals with perl under Windows. The tutorial should be in line with modern Perl practices, so hopefully you won't see any more bareword filehandles, two-argument open or -w switches.
- Pour aller plus loin à la suite de ce cours :
- (sur le site "Outils Froids") : Pratiquer la veille multilingue en 4 étapes et 15 outils linguistiques .
- Une analyse réalisée à la suite des débats entre les candidats au cours de la campagne présidentielle américaine 2008 : Lexical Analysis of 2008 US Presidential and Vice-Presidential Debates — who's the Windbag ?.
Plurital 2011/2012. Cours Projet Encadré. J.M. Daube, S. Fleury, R. Belmouhoub. http://tal.univ-paris3.fr/plurital/