bag



BàO 1: Filtrage et Nettoyage



Le but de ce premier script est de parcourir l'arborescence contenant tous les fils RSS du journal Le Monde pendant les années 2009 et 2010. Pour cela, nous avons tout d'abord cherché à extraire le contenu textuel des flux RSS : titres et résumés contenus dans les balises <title> et <description> de chaque balise <item> des fils RSS du corpus le Monde 2009 & 2010. Puis, il a fallu faire du nettoyage en supprimant les doublons, et en remplaçant les entités HTML et les caractères spéciaux. On a donc obtenu ce premier script perl permettant de passer par toutes ces étapes.

fichier bao1_bascarane_dubremetz.pl    à voir | à télécharger


Lancement du script


Selon le choix de l'année à traiter, on modifie l'argument (2009 ou 2010). 


Choix de la rubrique

Pour permettre de choisir la rubrique à traiter, l'utilisateur doit donner l'identifiant correspondant à la rubrique dans la liste proposée. 

Chaque identifiant est relié au numéro porté par le fil associé comme sur ces quelques lignes de scripts. à voir

Fichiers en Sortie



Nous avons utilisé cinq grandes procédures: &parcoursarborescencefichiers, &filtrage, &nettoietexte, &mangedoublons et &xmlisateur.

Pour les différentes utilisations qui en seront faites, cinq sorties sont créées :
        - Le texte brut des fils RSS au format TXT et XML, où les titres et descriptions restants sont concaténés les uns à la suite des autres ;
        - Une sortie destinée à TreeTagger, où le contenu est balisé par fichier et par "bloc" (séparant chaque titre et résumé) ;
        - Une sortie destinée à Cordial, où les indications de fichiers et blocs ne sont plus indiquées par des balises mais par des mots clés, Cordial décomposant les balises pour les "tagger".
        - Un fichier structuré au format Lexico 3, afin de constituer un corpus analysable grâce à une segmentation par fichier, par date (jour, mois et année), par article, par titre et par résumé.



Exemple de fichiers obtenus pour la rubrique Culture de l'année 2010 : à télécharger



EXTRAITS VISIBLES:


Texte brut (format txt)                            à voir

Texte brut (format xml)                           à voir

Texte balisé (pour TreeTagger)              à voir

Texte balisé (pour Cordial)                     à voir

Texte balisé (pour Lexico 3)                   à voir

Bascarane Lydia & Dubremetz Marie - © 2011