Présentation

Le projet consiste à:

 - établir un corpus à partir des fils RSS extraits sur le site LeMonde.fr tous les jours de l'année 2008 à 19h            (BAO 1).

  -étiqueter ce corpus de façon morphosyntaxique (BAO 2).

  -extraire des patrons syntaxiques choisis (BAO 3).

  -établir une représentation graphique de ces patrons (BAO 4).                                                                                   
Les fils RSS (really sample syndications) du Monde sont des fichiers XML contenant, pour chaque article, titre, résumé, lien vers l’article original, offrant des possibilités de mise à jour automatiques.
Une boite à outils (BAO), comme son nom l’indique, rassemble les outils informatiques adéquats, soigneusement sélectionnés pour chaque étape par nos enseignants.

L’intérêt de l’exercice est multiple:

  -se confrontater à des corpus importants et aux contraintes de nettoyage que leurs tailles et leur diversité    impliquent.

  -travailler "in live" sur des fichiers XML.

  -apprécier la puissance et les finesses du langage PERL.

  -faire connaissance avec un certain de nombre logiciels ou de langages (Cordial, TreeTragger, Cooktop,                Xpath…).