Présentation Générale
Cette application est une initiation à la mise en place d’une chaîne de traitement textuelle automatisée réalisée dans le cadre du cours « Projet encadré » sous la tutelle de trois enseignants de Paris-3 et de l’INALCO M. Serge Fleury, M. Jean-Michel Daube ainsi que M. Rachid Belmouhoub auxquels nous adressons un grand remerciement pour leur grande disponibilité et leur bonne humeur.
Le point de départ du traitement est une arborescence de fils RSS du quotidien Le Monde, c’est-à-dire des fichiers XML contenant les titres et les descriptions des articles.
Le travail consiste à filtrer le contenu de ces fichiers structurés, en y appliquant des méthodes d'étiquetage, puis en y extrayant des patrons morphosyntaxiques prédéfinis à partir d'un fichier étiqueté et ensuite construire des graphes nous permettant la visualisation de ces résultats.
- La première boîte à outils Bao1 a pour but d’élaborer un programme filtreur en perl.
- La deuxième boîte Bao2 nous a permis d'utiliser deux logiciels d'étiquetage :
TreeTagger et Cordial.
- La troisième boîte Bao3 est consacrée à l'extraction des patrons morphosyntaxiques
- La quatrième boîte Bao4 nous a permis de visualiser les résultats obtenus par ces
deux analyseurs syntaxiques sous forme de graphes
La mise en place de cette chaîne de traitement textuel nous a permis de nous familiariser avec le langage
de programmation Perl et de tester quelques outils d'étiquetage morphosyntaxique
(TreeTagger et cordial)