Secteur TAL Informatique,
Université Sorbonne nouvelle, Paris 3

19 rue des Bernardins, 75005 Paris
Secteur TAL Informatique, Université Sorbonne nouvelle, Paris 3

Les sites officiels de la campagne présidentielle 2002

Module SLFN8

  

Texte de travail

Serge Fleury

10 mai 2002

Préambule

Le texte qui suit est une amorce d'un plan de travail pour la séance de clôture du cours SLFN8 (les 4 dernières séances). Ce texte sera complété dans les semaines qui suivent. L'ensemble des données traitées pour cette séance sera disponible sur un CD.

Liste des sites officiels

Jean Philippe Allenbach

Parti Fédéraliste

Parti-federaliste.com

François Bayrou

UDF

Lafrancehumaine.com ou Bayrou.net (idem)

Olivier Besancenot

LCR

Lcr-rouge.org

Emile Blanchet

3ème révolution française

3revolution.com

Christine Boutin

Apparentée UDF

Christineboutin2002.com

Jacques Cheminade

Solidarité & Progrès

Cheminade2002.org

Jean-Pierre Chevènement

MDC

Chevenement2002.com

Jacques Chirac

RPR

Chiracaveclafrance.net

Dieudonné

Les Utopistes

Lesutopistes.com

Daniel Gluckstein

Parti des travailleurs

Pas de site officiel

Blaise Hersent-Lechatreux

Parti Blanc

Partiblanc.fr

Robert Hue

PCF

Roberthue2002.com

Lionel Jospin

PS

Lioneljospin.net

Jean Saint-Josse

CPNT

Perso.wanadoo.fr/cpnt

Arlette Laguiller

Lutte Ouvrière

Lutte-ouvriere.org

Brice Lalonde

Génération écologie

Generation-ecologie.com

Pierre Larrouturou

Nouvelle donne

Nouvelledonne.net

Corinne Lepage

Cap 21

Corinne-lepage.com

Alain Madelin

DL

Alainmadelin.com

Noël Mamère

LesVerts

Noelmamere.eu.org

Nicolas Miguet

RCF

Miguet2002.com

Bruno Mégret

MNR

Bruno-megret.com

Ange Piccolo

FFI

Laforceintelligente.com

Charles Pasqua

RPF

Rpfie.org

Jean-Marie Le Pen

FN

Lepen.tv

Claude Reichman

Sans étiquette

Conscience-politique.org

Christiane Taubira

PRG

Radical-gauche.org

Antoine Waechter

MEI

Mei-fr.org

Liens

L'observatoire de la Net Campagne : http://www.net-campagne.net

Le corpus

Le corpus à analyser a été constitué à partir des pages d'accueil des sites de campagne pour l'élection présidentielle 2002. Ce corpus a été construit de manière incrémentale à raison d'une aspiration par jour à compter du 11 mars 2002 (certaines journées n'ont pas été traitées).

Aspiration

Le script d'aspiration de ces pages utilisent le programme wget sous Unix pour sauvegarder localement les pages HTML. Ce script est donné ci-dessous :

$wgetcmd = "wget -q -O -";

`$wgetcmd 'www.Parti-federaliste.com' > aspiration1/Parti-federaliste.htm`;

`$wgetcmd 'www.Lafrancehumaine.com' > aspiration1/Lafrancehumaine.htm`;

`$wgetcmd 'www.Lcr-rouge.org' > aspiration1/Lcr-rouge.htm`;

`$wgetcmd 'www.Christineboutin2002.com' > aspiration1/Christineboutin2002.htm`;

`$wgetcmd 'www.Cheminade2002.org' > aspiration1/Cheminade2002.htm`;

`$wgetcmd 'www.Chevenement2002.com' > aspiration1/Chevenement2002.htm`;

`$wgetcmd 'www.Chiracaveclafrance.net' > aspiration1/Chiracaveclafrance.htm`;

`$wgetcmd 'www.Lesutopistes.com' > aspiration1/Lesutopistes.htm`;

`$wgetcmd 'www.Partiblanc.fr' > aspiration1/Partiblanc.htm`;

`$wgetcmd 'www.Roberthue2002.com' > aspiration1/Roberthue2002.htm`;

`$wgetcmd 'www.Lioneljospin.net' > aspiration1/Lioneljospin.htm`;

`$wgetcmd 'Perso.wanadoo.fr/cpnt' > aspiration1/cpnt.htm`;

`$wgetcmd 'www.Lutte-ouvriere.org' > aspiration1/Lutte-ouvriere.htm`;

`$wgetcmd 'www.Generation-ecologie.com' > aspiration1/Generation-ecologie.htm`;

`$wgetcmd 'www.Corinne-lepage.com' > aspiration1/Corinne-lepage.htm`;

`$wgetcmd 'www.Alainmadelin.com' > aspiration1/Alainmadelin.htm`;

`$wgetcmd 'www.Noelmamere.eu.org' > aspiration1/Noelmamere.htm`;

`$wgetcmd 'www.Miguet2002.com' > aspiration1/Miguet2002.htm`;

`$wgetcmd 'www.Bruno-megret.com' > aspiration1/Bruno-megret.htm`;

`$wgetcmd 'pageperso.aol.fr/angepiccolo/mapage/associations.html' > aspiration1/Laforceintelligent.htm`;

`$wgetcmd 'www.Rpfie.org' > aspiration1/Rpfie.htm`;

`$wgetcmd 'www.Lepen.tv/accueil.htm' > aspiration1/Lepen.htm`;

`$wgetcmd 'www.Conscience-politique.org' > aspiration1/Conscience-politique.htm`;

`$wgetcmd 'www.planeteradicale.org/asp/index.asp' > aspiration1/Radical-gauche.htm`;

`$wgetcmd 'www.Mei-fr.org' > aspiration1/Mei-fr.htm`;

Normalisation

Les pages aspirées ont ensuite été normalisées en utilisant la chaîne de traitement Typweb (cf http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/typweb.htm).

Cette normalisation utilise une version enrichie du programme webxref (ibid.).

Le script réalisant cette étape de normalisation est le suivant :

system("perl webxref-038-homolSF2.pl -rappspec 1 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Alainmadelin.htm");

system("perl webxref-038-homolSF2.pl -rappspec 2 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Bruno-megret.htm");

system("perl webxref-038-homolSF2.pl -rappspec 3 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Cheminade2002.htm");

system("perl webxref-038-homolSF2.pl -rappspec 4 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Chevenement2002.htm");

system("perl webxref-038-homolSF2.pl -rappspec 5 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Chiracaveclafrance.htm");

system("perl webxref-038-homolSF2.pl -rappspec 6 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Christineboutin2002.htm");

system("perl webxref-038-homolSF2.pl -rappspec 7 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Conscience-politique.htm");

system("perl webxref-038-homolSF2.pl -rappspec 8 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Corinne-lepage.htm");

system("perl webxref-038-homolSF2.pl -rappspec 9 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Generation-ecologie.htm");

system("perl webxref-038-homolSF2.pl -rappspec 10 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Laforceintelligent.htm");

system("perl webxref-038-homolSF2.pl -rappspec 11 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Lafrancehumaine.htm");

system("perl webxref-038-homolSF2.pl -rappspec 12 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Lcr-rouge.htm");

system("perl webxref-038-homolSF2.pl -rappspec 13 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Lepen.htm");

system("perl webxref-038-homolSF2.pl -rappspec 14 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Lesutopistes.htm");

system("perl webxref-038-homolSF2.pl -rappspec 15 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Lioneljospin.htm");

system("perl webxref-038-homolSF2.pl -rappspec 16 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Lutte-ouvriere.htm");

system("perl webxref-038-homolSF2.pl -rappspec 17 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Mei-fr.htm");

system("perl webxref-038-homolSF2.pl -rappspec 18 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Miguet2002.htm");

system("perl webxref-038-homolSF2.pl -rappspec 19 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Noelmamere.htm");

system("perl webxref-038-homolSF2.pl -rappspec 20 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Parti-federaliste.htm");

system("perl webxref-038-homolSF2.pl -rappspec 21 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Partiblanc.htm");

system("perl webxref-038-homolSF2.pl -rappspec 22 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Radical-gauche.htm");

system("perl webxref-038-homolSF2.pl -rappspec 23 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Roberthue2002.htm");

system("perl webxref-038-homolSF2.pl -rappspec 24 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Rpfie.htm");

system("perl webxref-038-homolSF2.pl -rappspec 25 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/cpnt.htm");

Le programme webxref utilisé est disponible infra.

A l'issue de cette étape de normalisation on dispose des éléments suivants :

Pour chaque journée :

  • Un corpus XML regroupant l'état normalisé de toutes les pages. Exemple : campagne-16032002.xml
  • Un corpus XML regroupant des états statistiques de toutes les pages. Exemple : SFC-campagne-11032002.xml

Pour l'ensemble des jours traités :

  • Un corpus chronologique regroupant toutes les journées, ce corpus a été construit pour être directement analysable avec Lexico 3. Exemple : campagne2002chronologique.txt
  • Un corpus regroupant les contenus des balises META de toutes les pages HTML initiales. Exemple : corpusCampagne2002-meta.txt

Présentation des données disponibles

 

Les données disponibles (présentes sur le CD "Corpus de Campagne") sont les suivantes :

 

  • Le répertoire AspirationsEtRapportsWebxref contient les résultats de l'aspiration des sites (par jour) et les rapports produits par Webxref sur ces sites aspirés.
  • Le répertoire cordial contient une version du corpus, limitée à une sous-partie de la chronologie disponible, catégorisé par Cordial et formaté pour Lexico.
  • LI>Le répertoire corpusChronologique contient une concaténation de tous les fichiers quotidiens préparés pour Lexico. Il contient un fichier similaire dans lequel on a supprimé les pages pour lesquelles on ne dispose d'aucune information.
  • Le répertoire corpusLexico contient tous les fichiers quotidiens préparés pour Lexico (et utilisés pour préparer le corpus corpusChronologique).
  • Le répertoire corpusMeta contient un fichier concaténant pour toutes les journées un état des balises META dans les sites visés, le fichier a été lui aussi préparé pour Lexico.
  • Le répertoire corpusTxtFromXML contient une sous-partie des corpus XML produits par Webxref, celle correspondant uniquement à la partie textuelle des pages analysées. Cette zone textuelle a été construite par Webxref en utilisant le résultat de la commande "Lynx -dump" (sous Unix) appliquée aux pages analysées.
  • Le répertoire corpusXML contient les corpus normalisés construits par Webxref et les états statistiques associés.
  • Le répertoire TextesCampagne contient des textes divers autour de la campagne.

On trouvera aussi sur le CD, ce texte de présentation et les programmes utilisés pour construire les corpus. Le programme webxref présent sur le CD est une version récente corrigeant un bug dans la segmentation produisant les comptages de formes graphiques à l'issue de Webxref (ce programme n'a pas été utilisé ici).

Listes des fichiers disponibles ici :

Analyse des corpus

L'analyse des corpus doit être menée en utilisant principalement Lexico3 sur la base des données présentées supra. On pourra compléter cette analyse par d'autres traitements avec d'autres outils (Cordial, Tropes…).

Cette analyse peut être thématisée selon vos propres intérêts.

Pistes :

Il peut être intéressant de regarder par exemple le mode de projection de chacun des candidats dans les discours présents sur ces pages.

Y-a-t-il un traitement particulier des discours de campagne sur le net ?

Etc.

Bon travail.