Présentation
Le projet consiste à:
- établir un corpus à partir des fils RSS extraits
sur le site LeMonde.fr
tous les jours de l'année 2008 à 19h
(BAO 1).
-étiqueter ce corpus de façon
morphosyntaxique (BAO 2).
-extraire des patrons syntaxiques choisis (BAO
3).
-établir une représentation graphique
de ces patrons (BAO 4).
Les fils RSS (really sample syndications) du Monde sont des fichiers
XML contenant, pour chaque article, titre,
résumé, lien vers l’article
original, offrant des possibilités de mise à jour
automatiques.
Une boite à outils (BAO), comme son nom l’indique,
rassemble les outils informatiques adéquats, soigneusement
sélectionnés pour chaque étape par nos
enseignants.
L’intérêt de l’exercice est
multiple:
-se confrontater à des corpus importants et aux
contraintes de nettoyage que leurs tailles et leur
diversité impliquent.
-travailler "in live" sur des fichiers XML.
-apprécier la puissance et les finesses du
langage PERL.
-faire connaissance avec un certain de nombre logiciels ou
de langages (Cordial, TreeTragger,
Cooktop,
Xpath…).