Notre projet de programmation qui a été réalisé dans le cadre du cursus de Master TAL et encadré par nos enseignants : M. Serge Fleury (Paris III), M. Jean-Michel Daube (INALCO) et M. Rachid Belmouhoub (INALCO) consiste à écrire un programme PERL permettant d'extraire les parties textuelles des documents RSS (au format XML) que nous allons étiqueté via deux logiciels: CORDIAL et TREE-TAGGER. Ceci a pour but de nous aider à trouver et à visualiser les mots (par des graphes) qui sont en relation de dépendance. Ces graphes sont créés grâce au logiciel Patron2graph.
Cordial est un correcteur global et un analyseur de la langue française (aux niveaux typographique, orthographique et grammatical). Ce logiciel permet d'étiqueter les parties textuelles d'un fichier texte. Cordial, comme Tree-tagger, a comme particularité de mettre un mot par ligne dans le fichier de sortie une fois l'étiquetage effctué. En sortie, nous obtenons alors un fichier texte avec 3 colonnes: forme, lemme, catégorie. Cordial utilise des noms de catégories grammaticales qui lui sont propres (par exemple: NPFS NCMIN NPMIN NCMS NPI, etc).
Tree-Taggerest un étiqueteur utilisable en ligne de commande. Il convient donc de créer un programme prenant en entrée un fichier au format TXT contenant les parties textuelles extraites et qui donnent en sortie un fichier au format XML avec un mot par ligne.
Flux RSS: description
La première version de RSS, connue sous le nom de RSS 0.9, a été créée par Netscape en 1999. Il s'agit d'une technologie fondée sur le language de balisage XML qui sert à diffuser du contenu des sites WEB sans avoir à les visiter. Autrement dit, un article d'un flux RSS fournit un lien direct vers le contenu correspondant, ce qui permet d'omettre la page d'accueil du site qui héberge ce contenu.
Document RSS: composition
Il se compose d'une chaîne channel qui contient des nouvelles élémentaires flux. Channel possède plusieurs éléments enfants item qui décrivent les nouvelles individuelles. Les seuls éléments obligatoires pour une nouvelle sont title et description. Si on omet l'élément link, la description de la nouvelle sert de contenu.
< channel >
< item >
< title >..................................< / title >
< description > ......< /description >
< link >...................................< / link >
< / item >
< item >............................etc
< / channel >
Dans notre projet les deux rubriques choisies CINEMA et CULTURE constituent chacune une chaîne, composée elle-même de nombreux flux qui sont des articles.
Liens utiles:
Site du Master PLURITAL
Notre blog