PROJET BOITE A OUTILS
créé par Nadia Makouar & Maria Doganova
Langues O'


Extraction de texte

Automatisation du filtrage sur l'arbre de fils RSS
Le corpus de travail presente au départ un ensemble de fichier xml et txt datant de janvier 2008. (voir la présentation du corpus)

Le Filtrage
Nous avons écrit un programme en PERL grâce auquel l'arborescence de fichiers est parcourue et chacun des fichiers rencontrés et traité. Les contenus textuels sont alors filtrés de toutes les balises contenues dans les fichiers xml. Seul le texte brut est conservé.

Avant de lancer le script nous avons préalablement créé un dossier (xml) dans lequel seront stockés les resultats. Il se trouve au même endroit que le dossier (2008) contenant les fichiers RSS et le programme en Perl (bao1.pl). Le programme est appelé selon la syntaxe suivante
 perl bao1.pl 2008
Les resultats obtenus sont des fichiers xml ne contenant qu'une balise "filtrage" que nous avons inserée en début et en fin de fichier afin d'assurer la bonne formation du document xml. Exemple de résultat du fichier "A_la_Une" ici

Le Nettoyage
Après avoir filtrer notre corpus, il nous faut "nettoyer" les quelques entités xml illisibles. Pour cela nous avons créé une procédure supplémentaire dans le même programme qui pourra les nettoyer.
 sub net_entites{
				$ligne=~s/'/\'/g;
				$ligne=~s/"/\"/g;
				$ligne=~s/é/é/g;
				$ligne=~s/ê/è/g;
				$ligne=~s/ê/ê/g;
				$ligne=~s/&nbsp//g;
				return $ligne;
				}
Il s'agit de remplacer les entités par les bons caractères.