Secteur TAL Informatique,
Université Sorbonne nouvelle, Paris 3
19 rue des Bernardins, 75005 Paris
BàO 3 :
Extraction terminologique (suite)
Liens
Lien direct : http://www.tal.univ-paris3.fr/cours/bao3-extractionterminologique.html
Travail à faire
Ce travail est explicité sur le blog du master
Script de travail
Vous trouverez derrière ce lien (extraction_terme-cordial), un exemple de script, similaire à celui vu la semaine dernière, permettant d'extraire des suites de tokens correspondant à des patrons morpho-syntaxiques contenus dans le fichier de patrons. Ce programme prend en entrée : un fichier issu de Cordial (argument en position 0), un fichier de patrons morphosyntaxiques (argument en position 1). La figure qui suit donne à voir l'activation du programme sur les données de test :
Lien vers le résultat produit : RESULTAT-extraction-cordial.txt |
Comme annoncé dans le travail à faire, vous devez commencer par tester ce programme en modifiant le fichier des patrons suivant les besoins, puis vous devrez appliquer ce programme sur les contenus de l’arborescence complète des fils RSS vue dans les BàO série 1 et 2 et produire en sortie un fichier contenant le résultat du filtrage terminologique sur l’arborescence complète des fils RSS (le contenu des balises DESCRIPTION), l’étiquetage étant réalisé préalablement avec Cordial (cf BàO série 2).