Nous allons vous présenter la constitution de
notre premier corpus d'une cinquantaine d'urls contenant le mot
barrage. Dans un premier temps nous allons vous décrire la
méthode utilisée puis dans un deuxième temps nous
allons vous présenter l'organisation dans un tableau et le
traitement des pages recueillies.
Méthode
utilisée:
Tout
d'abord nous
avons recherché sur divers
moteurs de recherche le mot barrage où le sens de barrage
hydraulique s'est
nettement détaché. Nous
avons trouvé une formidable
métaphore: barrage au sens "match de barrage" avec en
illustration une très belle
photographie d'un barrage
hydraulique .
Nous avons ensuite été curieux et nous
avons cherché les
différents sens du mot barrage dans des dictionnaires
traditionnels, Le Petit
Robert, Le Larousse, ainsi que sur internet, le TLFi, le site de
Wikipedia et le
Quid (où nous
avons trouvé 688 résultats pour le
mot barrage au sens
géographique).
Nous
avons
également lu vos transparents sur plurital et le site
technolangue.net ainsi que le travail de cartographie lexicale pour
la
recherche d'information
de JeanVeronis,
et les travaux de OlivierFerret,
Audibert,
Reymond
grâce
à une recherche sur google où l'on a
tapé "corpus barrage".
Ces travaux sont très intéressants et nous ont beaucoup
aidé
dans notre démarche.
En effet on y découvre comment ils
ont procédé
dans
leurs projets. Ils sont partis de vastes corpus pour
découvrir les sens de mots
à partir d'un réseau de cooccurrences lexicales. Ferret a
essayé de définir les
sens des mots à partir de leur usage.
Pourtant comme notre travail étant
de
bien moins grande envergure nous nous sommes limités à un
échantillonnage de
quatre sens, pour récupérer une information
réduite, concise et appropriée.
Nous avons choisi deux moteurs de recherche: Google, le plus
grand nombre d'occurrences, Mozbot, et les archives du quotidien Le
Monde, le
plus pertinent.
Nous avons doncmis en
évidence les quatre sens suivants:
"Barrage hydraulique" :
Ouvrage hydraulique. cf. Wikipédia. Champ
sémantique: catastrophe, rupture, hydroélectrique,
électricité, énergie, construction, eau, lac,
vallée, noms de rivière, etc... avec Google et Mozbot, et
projet, travaux, construction avec le corpus Le Monde.
Dans le
corpus Le Monde, nous
avons des exemples variés de barrages hydrauliques (Charlas en
Haute-Garonne,
Baglihar, Laos, Yunnan chinois, Kissoufim, Cisjordanie, Yacyreta, Trois
Gorges,
Serre-Ponçon en France).Avec les moteurs de recherche nous avons
Malpasset,
Assouan, Rance, Champagney, Poutès, mais aussi Trois Gorges,
Charlas.
"Tir de barrage": Domaine
militaire; tir
d'artillerie destiné à barrer le passage à
l'ennemi (TLFi).Contexte de guerre, tir de barrage des rebelles au
Libéria, en Irak, Jérusalem. Champ
sémantique: artillerie, attaques, obus, armes, rebelles; mais
aussi explication du jeu "Tir des Roys" et métonymie: tir de
barrage dans la blogosphère, tir de barrage du P.S. contre
l'ouverture du capital d'EDF, tir de barrage contre le CSA.
"Faire barrage" :
Expression non trouvée dans le TLFi; dans le Petit Robert, sens
fig.: "empêcher d'agir". Nous
avons trouvé un grand nombre de fois l'expression: "faire
barrage à" surtout concernant le F.N. (à M. Le Pen,
à
Jean-Marie Le Pen, à l'extrême-droite, aux candidats du
Front National) mais aussi barrage aux microbes, à la
capitalisation, au gouvernement...
"Match de barrage"
: destiné à départager plusieurs concurrents qui
se disputent l'accès à une catégorie, à une
compétition supérieure (Le Petit Robert). Expression
également non trouvée dans le TLFi.
Domaine du sport, basket-ball,
rugby, tennis,
football. Champ sémantique: Coupe du Monde, finale, vainqueur,
noms de Pays. Olivier Ferret nous dit
que dans le corpus qu'il a étudié, "le sens match de barrages est faiblement
présent au niveau des cooccurrences". Au contraire nous
avons trouvé énormément d'occurrences de barrages
sportifs sur
google. Voir tableau comparatif ci-dessous:
Google pages
francophones
Yahoo
Mozbot
MSN
Voila.fr
Altavista
barrage
2580000
1490000
196000
380064
136940
1550000
Tir de barrage
117000
113000
8090
14052
Faire barrage à
2000000
777000
Barrage tennis
141000
102000
12903
Barrage basket
94100
63500
Barrage football
246000
170000
Barrage foot
143000
77900
Barrage hydraulique
170000
75200
11900
Barrage hydrolique
389
144
143
Un intermède
amusant dans notre recherche: nous avons tapé barrage hydrolique
sur Google, Yahoo et MSN, et nous avons
trouvé des réponses (389 pour Google, 144 pour Yahoo et
143 pour MSN) Evidemment
ces chiffres sont insignifiants par rapport au nombre d'occurences de
barrage
hydraulique (170000, 75200 et 11900). Et nous constatons souvent que ce
sont
des enfants qui posent des questions à propos de devoirs
à rendre sur le thème
des barrages, et qui font beaucoup de fautes d'orthographe.
Ex: bonjour
j’aimerai trouvé des information sur les barrageshydrolique
en vue de constituer un dossier pour un TIPE sur ce sujet...
Organisation et
traitement des pages
Répertoires du
projet.
La racine du projet s'appele projet. Ce
répertoire contient les sous-répertoires suivants:
bin :
Scripts divers pour l'automatisation du processus
documentation
: Contient ce fichier ainsi que les tables des Urls
aspirées.
pages
: la racine du répertoire contenant les pages aspirées
result
: la racine du répertoire ayant la même structure que pages
et qui contient le résultat des divers scripts utilisés
pour transformer et formatter les pages aspirées.
Données.
Le projet pages
contient autant de sous répertoires que de moteurs
utilisés. Nous avons utilisé Google, Mozbot et le corpus
du Monde, soit 3 moteurs différents. Il y a donc 3
sous-répertoires sous pages. ( voir figure1 )
Dans chacun de ces répertoires associés à un
moteur
nous avons créé un répertoire par expression
recherchée. Et pour chaque expression recherchée, nous
avons listé les Urls à aspirer dans un fichier
nommé urls.
Ce dernier sert à lancer wget avec l'option -i de façon
à aspirer l'ensemble des Urls en une seule fois.
Exemple: L'aspiration des pages de google concernant l'expression "faire barrage" se fait dans le
répertoire pages/google/faire-barrage
à partir des urls listées dans le fichier pages/google/faire-barrage/urls
avec la commande :
(cd pages/google/faire-barrage
; wget -i urls)
L'aspiration s'est faite à la main ( 3*4 utilisations de la
commande ci dessus ), mais peut être automatisée sans
problèmes. ( Une petite exception pour CorpusLeMonde doit
être gérée pour ne pas coder de mot de passe dans
les scripts. Note 1)
Figure1. Organisation des répertoires
Choix des pages
Seules les pages ayant une extension .htm , .html , shtml etc.. ont
été choisies pour être aspirées. Nous
n'avons pas aspiré de
sites dynamiques ni de document PDF. Certaines des pages
aspirées contiennent plusieurs frames.
De plus, afin de ne pas compliquer le mise en correspondance des Urls
et des noms de fichiers locaux, nous avons choisi des Urls pour
lesquelles le nom du fichier créé par wget était
unique pour un moteur donné et un mot clé donné
(Note 2).
Extraction et
balisage du texte à partir des pages
aspirées.
On utilise la commande lynx
pour créer un fichier texte qui sera ensuite purgé d'un
certain nombre de lignes qui contiennent la liste des
références externes de la page. Ces dernieres ne sont pas
en effet utiles pour le traitement. Le texte une fois
créé, il est balisé sommairement à l'aide
de grep et
d'outils ad hoc.
Exemple : Le fichier html résultat de
l'aspiration est transformé en un texte qui ressemble à ça.
Parenthèse:
Utilisation d'Unitex pour baliser "encore plus".
Les "patterns" disponibles dans Unitex permettent de spécifier
simplement et d'identifier les motifs recherchées. De plus les
formes fléchies seront aussi prises en compte. Un petit script h2t
automatise cette tâche. La définition des patterns se fait
par le script mkpatt.
( voir Figure 2)
Un résumé des résultats obtenus est crée
par le script mkuntx
et est disponible ici.
Processus de
création des tables
Une fois aspirées, les fichiers correspondants aux pages ont
été créés par wget dans les
répertoires du projet. Comme expliqué ci dessus, nous
n'avons pas eu à gérer la correspondance entre un nom
d'Url et un nom de fichier local créé par wget. Cette
dernière a
été programmée simplement sur le modèle
suivant :
On lance le script qui s'appelle process et qui pilote l'ensemble
des opérations.
Pour chaque fichier correspondant à une Url
aspirée, on applique la commande stabilo
Une fois les pages crées, on fabrique les tables dans le
répertoire documentation
avec la commande mkhtm.
( Si
on veut essayer : cd projet ; rm -rf result ; cd bin ;
./process
)
Note 1: LaDocumentation
de wget mentionne la possibilité de mettre le compte de
connexion dans un fichier ~/.getrc ou ~/.netrc que l'on
protégera en lecture. En tout état de cause, la
transmission des mots de passe en clair posera des problèmes de
sécurité.
Note 2: Pour
simplifier, aucune analyse soignée des erreurs et du "log file"
de wget n'a été faite. La correspondance entre le nom
d'Url et le nom du fichier local devrait être faite à ce
moment du processus.
Note 3:
Certaines pages aspirées font référence à
des pages dynamiques. Il est alors possible d'avoir une erreur lors de
la consultation dans colonne page aspirée..
Résultats du
traitement
Les tables crées ci dessus sont consultables en suivant pour un
moteur les liens ci dessous:
Nous avons consignés le calendrier de nos activités et
les problèmes rencontrés ici.
Conclusion:
Les anglais sont
fiers
d'annoncer qu'il faut 80 000 ans pour lire ce que contient la British
Library. Pourtant face à des corpus si immenses, il nous faut,
pour les étudier, des
outils appropriés.
Pour notre premier mini-corpus d'une
cinquantaine d' urls sur le lexème barrage, nous avons travaillé sur
la toile web, source intarissable d'informations. Nous avons bien
évidemment dû nous tourner vers des moteurs de
recherche pour faire une première sélection.
Nous nous sommes interrogés sur les
différents sens de ce
mot en contexte, inspirés par les recherches sur
l'automatisation de la tâche de
désambiguïsation lexicale et sur les
dictionnaires distributionnels qui semblent être en plein essor. Et c'est ainsi
que nous avons découvert une multitude
d'utilisations du mot barrage, comme par exemple, "barrage de
guitare" ou encore "Barrage" en nom propre:
nom de bistrot ou de restaurant
(La Taverne du Barrage Restaurant bar brasserie Saint-Malo en Bretagne,
ou nom de livre: Les aventures de Lassie numéro 3 Le Barrage).
Une fois, nos quatre sens choisis,
nous avons utilisé des outils informatiques tels que Wget,
Lynx, egrep et créé
des boucles pour automatiser les tâches d'extraction, de
filtrage.