Programmation
et projet encadré
Violeta
Ordonez,
Master TAL, Paris3
Claire
Guiraud,
Ingénierie Multilingue, Inalco
Projet
: Mise en oeuvre d'une chaîne de
traitement
textuel semi-automatique,
depuis
la récupération des
données jusqu'à leur présentation.
Descriptif
du mini-projet
:
Le
présent
mini-projet à pour objectif l'étude
tout d'abord
linguistique du mot "barrage"
(plusieurs sens), ainsi qu'à la récuperation d'un
corpus
contenant environ 50 URLS pour aboutir à une normalisation,
segmentation, étiquetage, de ces pages par sens. Nous avons
réalisé ce mini-projet sous la direction de Serge
Fleury,
Benoit Habert et Jean Michel Daube, au sein du cours "Programmation et
Projet Encadré".
Voici les différentes
démarches que
nous avons utilisé pour l'elaboration du corpus,
l'aspiration de
pages, la structuration jusqu'à la présentation
du
résultat.
Nous avons creé un journal
pour présenter chaque étape dans notre
processus
Structure
du projet
:
Deux
dossiers principaux : 'Documentation'
et 'Corpus'.
Le dossier Documentation
contient les
notes,
commentaires, et applications mises au point pour obtenir les diverses
données manipulées, ainsi que les
répertoires
contenant
des données qui ont été
abandonnées au cours
du projet.
Le dossier Corpus
contient les
données
elles-mêmes, avec une arborescence de sous-répertoires
parallèles :
- Trois répertoires 'Liens', 'wget' et 'lynx'
contenant les six sous-dossiers nommés selon les sens
du mots barrage :
- 'barrierephysique', 'figure', 'guitare',
'hydroeletrique', 'inclassables', 'sport'
- Deux répertoires :
- le repertoire 'grep' contenant les fichiers
de
phrases
obtenues en fin de traitement
- le repertoire 'logfiles' contenant les
journaux
de
connexion de la commande wget
- Le fichier contenant le script
écrit au
cours du
projet,
qui génère presque toute l'arborescence contenue
dans le
dossier 'Corpus'
- Le fichier au format html, contenant un
tableau
synthétique de tous les fichiers de données
obtenus et des liens vers ces fichiers. Ce tableau est automatiquement
crée par le script.
Voir les problèmes
rencontrés.
Consulter les
résultats.