Documents Structurés

Site réalisé dans le cadre du cours de Documents Structurés par Kelly MASCLEF et Julie SAUVAGE.

Visiter le site

Projet Encadré 1

Programmation et Projet Encadré 1 du Semestre 1 par Kelly MASCLEF et Julie SAUVAGE (et avec Julie BELIAO).

Visiter le site

Projet Encadré 1

Programmation et Projet Encadré 1 du Semestre 1 par Ilaria TIDDI (avec Marcelo MATOSO et Camille DOUDANE).

Visiter le site

TAL

L5T53 / L5T55 (BASH/Emacs/Python) par Kelly MASCLEF

Visiter le site

Environnement-TAL

L5T53 / L5T55 (BASH/Emacs/Python) par Julie SAUVAGE

Visiter le site

Programmation pour le TAL avec PERL

L6T54 / L6T55 (PERL) par Julie SAUVAGE

Visiter le site

Bienvenue chez Perl

L6T54 / L6T55 (PERL) par Kelly MASCLEF

Visiter le site

Dans le cadre de ce projet, nous allons travailler à partir de fils RSS ( traduisez "Really Simple Syndication" ) tirés du site www.lemonde.fr durant les années 2009 et 2010. Ceci représente plusieurs centaines de méga de fichiers ! A travers les différentes boîtes à outils, nous allons vous montrer la démarche de notre travail.

Les étapes en schéma!

La boîte à outils 1

L'entrée pour cette partie du projet est un corpus constitué du contenu des fils RSS . Ces fils RSS sont eux-mêmes au format XML, ce qui est capital pour la suite du projet, vous allez le voir bien assez tôt. Le but de cette première boîte va être d'extraire les parties textuelles du corpus. Pour celà, nous avons utilisé plusieurs solutions :

  • la première consiste à utiliser un script Perl et des expressions régulières;
  • la deuxième solution est une organisation différente du premier script(afin de montrer qu'avec les mêmes outils, il y a beaucoup de façons différentes de procéder);
  • la troisième consiste à utiliser une bibliothèque Perl : XPATH . En effet, xpath est un outil associé à xml qui permet d'extraire des zones particulières d'une arborescence xml et des informations;
  • la quatrième solution prévoit l'emploi de la bibliothèque XML::LibXML.

La boîte à outils 2

Le but de cette boîte est de s'appuyer sur les contenus textuels extraits grâce à la boîte n°1 et de les étiqueter avec des étiquettes morpho-syntaxiques. Pour celà il existe deux éditeurs :

  • Cordial , qui a besoin de tout le texte pour fonctionner.
  • Treetagger ,qui n'a pas besoin d'avoir tout le contenu textuel pour commencer l'étiquetage. En effet, nous pourrons faire nos analyses par " à-coups" , au fur et à mesure que nous obtenons du texte.

La boîte à outils 3

Dans cette boîte nous allons faire de l'extraction de patrons syntaxiques. Suivant l'étiqueteur que nous avons pris, le travail sera différent.

  • Si nous avions pris Cordial, nous devrons faire l'extraction à partir d'un script perl.
  • Sur les sorties en xml de Treetagger on utilisera XPATH et avec XSLT nous afficherons les portions de l'arbre qui nous intéressent.

La boîte à outils 4

Dans cette dernière boîte à outils, nous allons produire, à partir des patrons syntaxiques extraits, des graphes permettant de mettre en valeur les relations entretenues par les différents éléments.

 

 

Vous trouverez les archives des scripts ainsi que des résultats en cliquant sur le lien "Scripts" en bas de page.