LMSDL180 Programmation
et projet
encadré
Olga Semenova & Ninon Payen
DESS de Traductique (INALCO)
MINI PROJET "BARRAGE"
Objectifs du
projet:
- constituer un corpus limité du mot "barrage" sur le
Web avec des échantillons de différents usages du mot
dans le contexte;
- utilisation des methodes d'extraction d'information;
- automatisation des tâches répétitives.
Principales étapes du
projet:
- Collecte de
données sur le Web avec l'aide des moteurs de recherche.
- Aspiration des
pages selectionnées (commande "wget -i").
- Filtrage des pages
aspirées pour en faire des fichiers texte (commande "lynx
-dump").
- Extraction du mot
"barrage" dans son contexte à partir des fichiers texte
(commande "egrep -i").
- Création du
tableau synthétique contenant les liens vers les URLs
initiales, les pages aspirées, les
fichiers "dumpés" et les fichiers issus de la commande "egrep":
- L'ensemble des activités
réalisées dans l'ordre chronologique est
présenté dans le JOURNAL
Problèmes rencontrés:
- application des commandes aux pages Web avec extension
.asp donnent des fichiers erronés (soit ils sont vides soit
gardent les balises HTML);
- difficulté à écrire le script final qui
fait toutes les commandes en une seule boucle et en sortie crée
un tableau à quatre colonnes où chaque colonne
représente respectivement les données issues des quatre
tâches effectuées.