Secteur TAL Informatique,
Université Sorbonne nouvelle, Paris 3
19 rue des Bernardins, 75005 Paris
Les sites officiels de la campagne présidentielle 2002
Module SLFN8
Texte de travail
Serge Fleury
10 mai 2002
Le texte qui suit est une amorce d'un plan de travail pour la séance de clôture du cours SLFN8 (les 4 dernières séances). Ce texte sera complété dans les semaines qui suivent. L'ensemble des données traitées pour cette séance sera disponible sur un CD.
Jean Philippe Allenbach |
Parti Fédéraliste |
Parti-federaliste.com |
François Bayrou |
UDF |
Lafrancehumaine.com ou Bayrou.net (idem) |
Olivier Besancenot |
LCR |
Lcr-rouge.org |
Emile Blanchet |
3ème révolution française |
3revolution.com |
Christine Boutin |
Apparentée UDF |
Christineboutin2002.com |
Jacques Cheminade |
Solidarité & Progrès |
Cheminade2002.org |
Jean-Pierre Chevènement |
MDC |
Chevenement2002.com |
Jacques Chirac |
RPR |
Chiracaveclafrance.net |
Dieudonné |
Les Utopistes |
Lesutopistes.com |
Daniel Gluckstein |
Parti des travailleurs |
Pas de site officiel |
Blaise Hersent-Lechatreux |
Parti Blanc |
Partiblanc.fr |
Robert Hue |
PCF |
Roberthue2002.com |
Lionel Jospin |
PS |
Lioneljospin.net |
Jean Saint-Josse |
CPNT |
Perso.wanadoo.fr/cpnt |
Arlette Laguiller |
Lutte Ouvrière |
Lutte-ouvriere.org |
Brice Lalonde |
Génération écologie |
Generation-ecologie.com |
Pierre Larrouturou |
Nouvelle donne |
Nouvelledonne.net |
Corinne Lepage |
Cap 21 |
Corinne-lepage.com |
Alain Madelin |
DL |
Alainmadelin.com |
Noël Mamère |
LesVerts |
Noelmamere.eu.org |
Nicolas Miguet |
RCF |
Miguet2002.com |
Bruno Mégret |
MNR |
Bruno-megret.com |
Ange Piccolo |
FFI |
Laforceintelligente.com |
Charles Pasqua |
RPF |
Rpfie.org |
Jean-Marie Le Pen |
FN |
Lepen.tv |
Claude Reichman |
Sans étiquette |
Conscience-politique.org |
Christiane Taubira |
PRG |
Radical-gauche.org |
Antoine Waechter |
MEI |
Mei-fr.org |
L'observatoire de la Net Campagne : http://www.net-campagne.net
Le corpus à analyser a été constitué à partir des pages d'accueil des sites de campagne pour l'élection présidentielle 2002. Ce corpus a été construit de manière incrémentale à raison d'une aspiration par jour à compter du 11 mars 2002 (certaines journées n'ont pas été traitées).
Le script d'aspiration de ces pages utilisent le programme wget sous Unix pour sauvegarder localement les pages HTML. Ce script est donné ci-dessous :
$wgetcmd = "wget -q -O -";
`$wgetcmd 'www.Parti-federaliste.com' > aspiration1/Parti-federaliste.htm`;
`$wgetcmd 'www.Lafrancehumaine.com' > aspiration1/Lafrancehumaine.htm`;
`$wgetcmd 'www.Lcr-rouge.org' > aspiration1/Lcr-rouge.htm`;
`$wgetcmd 'www.Christineboutin2002.com' > aspiration1/Christineboutin2002.htm`;
`$wgetcmd 'www.Cheminade2002.org' > aspiration1/Cheminade2002.htm`;
`$wgetcmd 'www.Chevenement2002.com' > aspiration1/Chevenement2002.htm`;
`$wgetcmd 'www.Chiracaveclafrance.net' > aspiration1/Chiracaveclafrance.htm`;
`$wgetcmd 'www.Lesutopistes.com' > aspiration1/Lesutopistes.htm`;
`$wgetcmd 'www.Partiblanc.fr' > aspiration1/Partiblanc.htm`;
`$wgetcmd 'www.Roberthue2002.com' > aspiration1/Roberthue2002.htm`;
`$wgetcmd 'www.Lioneljospin.net' > aspiration1/Lioneljospin.htm`;
`$wgetcmd 'Perso.wanadoo.fr/cpnt' > aspiration1/cpnt.htm`;
`$wgetcmd 'www.Lutte-ouvriere.org' > aspiration1/Lutte-ouvriere.htm`;
`$wgetcmd 'www.Generation-ecologie.com' > aspiration1/Generation-ecologie.htm`;
`$wgetcmd 'www.Corinne-lepage.com' > aspiration1/Corinne-lepage.htm`;
`$wgetcmd 'www.Alainmadelin.com' > aspiration1/Alainmadelin.htm`;
`$wgetcmd 'www.Noelmamere.eu.org' > aspiration1/Noelmamere.htm`;
`$wgetcmd 'www.Miguet2002.com' > aspiration1/Miguet2002.htm`;
`$wgetcmd 'www.Bruno-megret.com' > aspiration1/Bruno-megret.htm`;
`$wgetcmd 'pageperso.aol.fr/angepiccolo/mapage/associations.html' > aspiration1/Laforceintelligent.htm`;
`$wgetcmd 'www.Rpfie.org' > aspiration1/Rpfie.htm`;
`$wgetcmd 'www.Lepen.tv/accueil.htm' > aspiration1/Lepen.htm`;
`$wgetcmd 'www.Conscience-politique.org' > aspiration1/Conscience-politique.htm`;
`$wgetcmd 'www.planeteradicale.org/asp/index.asp' > aspiration1/Radical-gauche.htm`;
`$wgetcmd 'www.Mei-fr.org' > aspiration1/Mei-fr.htm`;
Les pages aspirées ont ensuite été normalisées en utilisant la chaîne de traitement Typweb (cf http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/typweb.htm).
Cette normalisation utilise une version enrichie du programme webxref (ibid.).
Le script réalisant cette étape de normalisation est le suivant :
system("perl webxref-038-homolSF2.pl -rappspec 1 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Alainmadelin.htm");
system("perl webxref-038-homolSF2.pl -rappspec 2 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Bruno-megret.htm");
system("perl webxref-038-homolSF2.pl -rappspec 3 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Cheminade2002.htm");
system("perl webxref-038-homolSF2.pl -rappspec 4 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Chevenement2002.htm");
system("perl webxref-038-homolSF2.pl -rappspec 5 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Chiracaveclafrance.htm");
system("perl webxref-038-homolSF2.pl -rappspec 6 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Christineboutin2002.htm");
system("perl webxref-038-homolSF2.pl -rappspec 7 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Conscience-politique.htm");
system("perl webxref-038-homolSF2.pl -rappspec 8 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Corinne-lepage.htm");
system("perl webxref-038-homolSF2.pl -rappspec 9 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Generation-ecologie.htm");
system("perl webxref-038-homolSF2.pl -rappspec 10 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Laforceintelligent.htm");
system("perl webxref-038-homolSF2.pl -rappspec 11 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Lafrancehumaine.htm");
system("perl webxref-038-homolSF2.pl -rappspec 12 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Lcr-rouge.htm");
system("perl webxref-038-homolSF2.pl -rappspec 13 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Lepen.htm");
system("perl webxref-038-homolSF2.pl -rappspec 14 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Lesutopistes.htm");
system("perl webxref-038-homolSF2.pl -rappspec 15 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Lioneljospin.htm");
system("perl webxref-038-homolSF2.pl -rappspec 16 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Lutte-ouvriere.htm");
system("perl webxref-038-homolSF2.pl -rappspec 17 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Mei-fr.htm");
system("perl webxref-038-homolSF2.pl -rappspec 18 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Miguet2002.htm");
system("perl webxref-038-homolSF2.pl -rappspec 19 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Noelmamere.htm");
system("perl webxref-038-homolSF2.pl -rappspec 20 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Parti-federaliste.htm");
system("perl webxref-038-homolSF2.pl -rappspec 21 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Partiblanc.htm");
system("perl webxref-038-homolSF2.pl -rappspec 22 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Radical-gauche.htm");
system("perl webxref-038-homolSF2.pl -rappspec 23 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Roberthue2002.htm");
system("perl webxref-038-homolSF2.pl -rappspec 24 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/Rpfie.htm");
system("perl webxref-038-homolSF2.pl -rappspec 25 -depth 0 -html -del -lynx -at campagne2typweb/ aspiration20032002/cpnt.htm");
Le programme webxref utilisé est disponible infra.
A l'issue de cette étape de normalisation on dispose des éléments suivants :
Pour chaque journée :
- Un corpus XML regroupant l'état normalisé de toutes les pages. Exemple : campagne-16032002.xml
- Un corpus XML regroupant des états statistiques de toutes les pages. Exemple : SFC-campagne-11032002.xml
Pour l'ensemble des jours traités :
- Un corpus chronologique regroupant toutes les journées, ce corpus a été construit pour être directement analysable avec Lexico 3. Exemple : campagne2002chronologique.txt
- Un corpus regroupant les contenus des balises META de toutes les pages HTML initiales. Exemple : corpusCampagne2002-meta.txt
Présentation des données disponibles
Les données disponibles (présentes sur le CD "Corpus de Campagne") sont les suivantes :
- Le répertoire AspirationsEtRapportsWebxref contient les résultats de l'aspiration des sites (par jour) et les rapports produits par Webxref sur ces sites aspirés.
- Le répertoire cordial contient une version du corpus, limitée à une sous-partie de la chronologie disponible, catégorisé par Cordial et formaté pour Lexico. LI>Le répertoire corpusChronologique contient une concaténation de tous les fichiers quotidiens préparés pour Lexico. Il contient un fichier similaire dans lequel on a supprimé les pages pour lesquelles on ne dispose d'aucune information.
- Le répertoire corpusLexico contient tous les fichiers quotidiens préparés pour Lexico (et utilisés pour préparer le corpus corpusChronologique).
- Le répertoire corpusMeta contient un fichier concaténant pour toutes les journées un état des balises META dans les sites visés, le fichier a été lui aussi préparé pour Lexico.
- Le répertoire corpusTxtFromXML contient une sous-partie des corpus XML produits par Webxref, celle correspondant uniquement à la partie textuelle des pages analysées. Cette zone textuelle a été construite par Webxref en utilisant le résultat de la commande "Lynx -dump" (sous Unix) appliquée aux pages analysées.
- Le répertoire corpusXML contient les corpus normalisés construits par Webxref et les états statistiques associés.
- Le répertoire TextesCampagne contient des textes divers autour de la campagne.
On trouvera aussi sur le CD, ce texte de présentation et les programmes utilisés pour construire les corpus. Le programme webxref présent sur le CD est une version récente corrigeant un bug dans la segmentation produisant les comptages de formes graphiques à l'issue de Webxref (ce programme n'a pas été utilisé ici).
Listes des fichiers disponibles ici :
Analyse des corpus
L'analyse des corpus doit être menée en utilisant principalement Lexico3 sur la base des données présentées supra. On pourra compléter cette analyse par d'autres traitements avec d'autres outils (Cordial, Tropes…).
Cette analyse peut être thématisée selon vos propres intérêts.
Pistes :
Il peut être intéressant de regarder par exemple le mode de projection de chacun des candidats dans les discours présents sur ces pages.
Y-a-t-il un traitement particulier des discours de campagne sur le net ?
Etc.
Bon travail.