Programmation et projet encadré



Violeta Ordonez, Master TAL, Paris3
Claire Guiraud, Ingénierie Multilingue, Inalco

Projet : Mise en oeuvre d'une chaîne de traitement textuel semi-automatique,

depuis la récupération des données jusqu'à leur présentation.




Descriptif du mini-projet : 


Le présent mini-projet à pour objectif l'étude tout d'abord linguistique du mot "barrage" (plusieurs sens), ainsi qu'à la récuperation d'un corpus contenant environ 50 URLS pour aboutir à une normalisation, segmentation, étiquetage, de ces pages par sens. Nous avons réalisé ce mini-projet sous la direction de Serge Fleury, Benoit Habert et Jean Michel Daube, au sein du cours "Programmation et Projet Encadré".

Voici les différentes démarches que nous avons utilisé pour l'elaboration du corpus, l'aspiration de pages, la structuration jusqu'à la présentation du résultat.

Nous avons creé un journal pour présenter chaque étape dans notre processus 

Structure du projet


Deux dossiers principaux : 'Documentation' et 'Corpus'.

       Le dossier Documentation contient les notes, commentaires, et applications mises au point pour obtenir les diverses données manipulées, ainsi que les répertoires contenant des données qui ont été abandonnées au cours du projet.

       Le dossier Corpus contient les données elles-mêmes, avec une arborescence de sous-répertoires parallèles : 



Voir les problèmes rencontrés.


Consulter les résultats.