Marianna Kucharski - Paris X
Nanterre
Marguerite Leenhardt - Paris 3 Sorbonne Nouvelle
Présentation de la chaîne
de traitement Boîtes
à outils
Boîtes
à outils
Objectif
L'objectif de la série
Boîte
à outils, qui comporte 4 modules, est la mise en
place d'un ensemble
d'outils informatiques
dont le but est de constituer une chaîne de traitement
automatique applicable à une arborescence de
répertoires
dans lesquels sont stockés des fils de presse RSS.
Un fichier RSS est un fichier
XML
qui respecte une structure particulière: c'est une
application
XML
spécifique.
Les fils RSS sont des flux de contenus gratuits en provenance de sites
internet. Ils donnent de l'information sur leur contenu et
permettent d'en suivre l'évolution des mises à
jour.
RSS est le sigle de
Really Simple Syndication; on
parle de
’syndication de contenus’ en tant que
c’est un procédé consistant
à rendre disponible une partie du contenu d’un
site web afin qu’elle soit utilisée par
d’autres sites.
Les principaux intérêts de ce travail
relèvent notamment de la prise en mains de logiciels, tels
que
Cordial,
Treetagger
ou encore
Pajek,
mais également de
la mise à profit des cours de
XML
ainsi que l'utilisation du langage
Perl.
De tels outils vont nous permettre de rendre compte des collocations de
certaines formes à partir de
patrons syntaxiques choisis. En effet, les contenus
textuels des fils RSS, une fois filtrés, seront
étiquetés, puis des patrons syntaxiques seront
extraits afin de pouvoir représenter sous forme de graphes
les proximités lexicales qu'ils entretiennent.
Mise en oeuvre
Boîte à outils 1
Filtrage du contenu textuel des fils RSS à l'aide d'un
script perl.
Boîte à outils 2
Etiquetage du texte à l'aide de Tree-tagger d'une part et de
Cordial d'autre part.
Boîte à outils 3
Extraction de patrons syntaxiques à partir des fichiers de
texte étiqueté, à l'aide de
requêtes XPath d'une part et d'un script Perl d'autre part.
Boîte à outils 4
Transformation des fichiers de patrons en graphes de
proximités lexicales avec Pajek (utilisation du format
Graphml).
Réalisation du rapport
Nous avons réalisé ce rapport à l'aide
d'un éditeur HTML (Nvu). Par ailleurs, nous avons appris
à utiliser une feuille de style CSS pour en
améliorer la présentation.
N.B.: Firefox, bien qu'étant notre navigateur favori, n'ouvre
pas correctement certains de nos fichiers XML (taille trop importante).
Il est donc conseillé de lire ce rapport sous Internet Explorer.