BàO 1: Filtrage et Nettoyage
Le but de ce premier script est de parcourir l'arborescence contenant tous les fils RSS du journal Le Monde pendant les années 2009 et 2010. Pour cela, nous avons tout d'abord cherché à extraire le contenu textuel des flux RSS : titres et résumés contenus dans les balises <title> et <description> de chaque balise <item> des fils RSS du corpus le Monde 2009 & 2010. Puis, il a fallu faire du nettoyage en supprimant les doublons, et en remplaçant les entités HTML et les caractères spéciaux. On a donc obtenu ce premier script perl permettant de passer par toutes ces étapes.
fichier bao1_bascarane_dubremetz.pl à voir | à télécharger
Lancement du script
Selon le choix de l'année à traiter, on modifie l'argument (2009 ou 2010).
Choix de la rubrique
Pour permettre de choisir la rubrique à traiter, l'utilisateur doit donner l'identifiant correspondant à la rubrique dans la liste proposée.
Chaque
identifiant est relié au numéro porté par le fil associé comme sur ces
quelques lignes de scripts. à
voir
Fichiers en Sortie
Nous avons utilisé cinq grandes procédures: &parcoursarborescencefichiers, &filtrage, &nettoietexte, &mangedoublons et &xmlisateur.
Pour les différentes utilisations qui en seront faites, cinq sorties sont créées :
- Le texte brut des fils RSS au format TXT et XML, où les titres et descriptions restants sont concaténés les uns à la suite des autres ;
- Une sortie destinée à TreeTagger, où le contenu est balisé par fichier et par "bloc" (séparant chaque titre et résumé) ;
- Une sortie destinée à Cordial, où les indications de fichiers et blocs ne sont plus indiquées par des balises mais par des mots clés, Cordial décomposant les balises pour les "tagger".
- Un fichier structuré au format Lexico 3, afin de constituer un corpus analysable grâce à une segmentation par fichier, par date (jour, mois et année), par article, par titre et par résumé.
Exemple de fichiers obtenus pour la rubrique Culture de l'année 2010 : à télécharger
EXTRAITS VISIBLES:
Texte brut (format txt) à voir
Texte brut (format xml) à voir
Texte balisé (pour TreeTagger) à voir
Texte balisé (pour Cordial) à voir
Texte balisé (pour Lexico 3) à voir