Cette présentation a été élaborée par Ivan Šmilauer (Master 1 Professionnel, INALCO - Documents numériques multilingues). Il s'agit d'un travail de fin de semestre (automne 2006) dans le cadre du cours Programmation et projet encadré, assuré par PluriTAL à l'université Paris III (enseignants Serge Fleury et Rachid Belmouhoub).
L'objectif de ce cours était de nous familiariser avec des techniques de conception des corpus textuels éléctroniques à partir du réseau Internet. En effet, l'acquistion des données linguistiques provenant de ce médium devient une pratique commune dans le domaine de la linguistique des corpus.
Le but concret de ce cours était de pouvoir obtenir, par nos propres moyens, un fichier html avec un ou plusieurs tableaux de liens vers des documents textuels qui seraient utiles pour une éventuelle étude de l'emploi du mot barrage sur le web.
Ce fichier devait être généré automatiquement (par un script shell) à partir d'une cinquantaine d'URL récupérés manuellement sur l'Internet, pointant vers les pages web contenant le mot barrage dans ses différents usages sémantiques.
Le tableau contient quatre colonnes avec des liens vers:
Les techniques nécessaires pour acquérir ce but étaient:
wget
, lynx
et egrep
.J'ai aussi profité de cet exercice pour apprendre à travailler avec les styles CSS pour rendre la présentation plus agréable à consulter.