Aleksandra Ristic (INALCO/Trad) et Yannick Lam Kim (INALCO/Im)

  1. Introduction:
  2. Méthode utilisée:
  3. Organisation et traitement des pages
    1. Répertoires du projet.
    2. Données.
    3. Choix des pages
    4. Extraction et balisage du texte à partir des pages aspirées.
    5. Parenthèse: Utilisation d'Unitex pour baliser "encore plus".
    6. Processus de création des tables
    7. Résultats du traitement
    8. Problèmes rencontrés
    9. Conclusion:

Introduction:

Nous allons vous présenter la constitution de notre premier corpus d'une cinquantaine d'urls contenant le mot barrage. Dans un premier temps nous allons vous décrire la méthode utilisée puis dans un deuxième temps nous allons vous présenter l'organisation dans un tableau et le traitement des pages recueillies.

Méthode utilisée:

Tout d'abord nous avons recherché sur divers moteurs de recherche le mot barrage où le sens de barrage hydraulique s'est nettement détaché. Nous avons trouvé une formidable métaphore: barrage au sens "match de barrage" avec en illustration une très belle photographie d'un barrage hydraulique .
Nous avons ensuite été curieux et nous avons cherché les différents sens du mot barrage dans des dictionnaires traditionnels, Le Petit Robert, Le Larousse, ainsi que sur internet, le TLFi, le site de Wikipedia et le Quid (où nous avons trouvé 688 résultats pour le mot barrage au sens géographique). 
Nous avons également lu vos transparents sur plurital et le site technolangue.net ainsi que le travail de cartographie lexicale pour la recherche d'information de Jean Veronis, et les travaux de Olivier Ferret, Audibert, Reymond grâce à une recherche sur google où l'on a tapé "corpus barrage".
Ces travaux sont très intéressants et nous ont beaucoup aidé dans notre démarche.
En effet on y découvre comment ils ont procédé dans leurs projets. Ils sont partis de vastes corpus pour découvrir les sens de mots à partir d'un réseau de cooccurrences lexicales. Ferret a essayé de définir les sens des mots à partir de leur usage.

Pourtant comme notre travail étant de bien moins grande envergure nous nous sommes limités à un échantillonnage de quatre sens, pour récupérer une information réduite, concise et appropriée.
Nous avons choisi deux moteurs de recherche: Google, le plus grand nombre d'occurrences, Mozbot, et les archives du quotidien Le Monde, le plus pertinent.
 

Nous avons donc mis en évidence les quatre sens suivants:
Domaine du sport, basket-ball, rugby, tennis, football. Champ sémantique: Coupe du Monde, finale, vainqueur, noms de Pays. Olivier Ferret nous dit que dans le corpus qu'il a étudié, "le sens match de barrages est faiblement présent au niveau  des cooccurrences". Au contraire nous avons trouvé énormément d'occurrences de barrages sportifs sur google. Voir tableau comparatif ci-dessous: 


Google pages francophones Yahoo  Mozbot MSN  Voila.fr Altavista
barrage 2580000 1490000 196000 380064 136940 1550000
Tir de barrage 117000 113000 8090 14052
Faire barrage à 2000000 777000
Barrage tennis 141000 102000 12903
Barrage basket 94100            63500
Barrage football 246000    170000
Barrage foot 143000            77900
Barrage hydraulique 170000 75200 11900
Barrage hydrolique 389      144 143
Un intermède amusant dans notre recherche: nous avons tapé barrage hydrolique sur Google, Yahoo et MSN, et nous avons trouvé des réponses (389 pour Google, 144 pour Yahoo et 143 pour MSN) Evidemment ces chiffres sont insignifiants par rapport au nombre d'occurences de barrage hydraulique (170000, 75200 et 11900). Et nous constatons souvent que ce sont des enfants qui posent des questions à propos de devoirs à rendre sur le thème des barrages, et qui font beaucoup de fautes d'orthographe.
Ex:
bonjour j’aimerai trouvé des information sur les barrages hydrolique en vue de constituer un dossier pour un TIPE sur ce sujet...


Organisation et traitement des pages


Répertoires du projet.

La racine du projet s'appele projet. Ce répertoire contient les sous-répertoires suivants:

Données.

Le projet pages contient autant de sous répertoires que de moteurs utilisés. Nous avons utilisé Google, Mozbot et le corpus du Monde, soit 3 moteurs différents. Il y a donc 3 sous-répertoires sous pages. ( voir figure 1 )

Dans chacun de ces répertoires associés à un moteur nous avons créé un répertoire par expression recherchée. Et pour chaque expression recherchée, nous avons listé les Urls à aspirer dans un fichier nommé urls.

Ce dernier sert à lancer wget avec l'option -i de façon à aspirer l'ensemble des Urls en une seule fois.

Exemple: L'aspiration des pages de google concernant l'expression "faire barrage" se fait dans le répertoire pages/google/faire-barrage à partir des urls listées dans le fichier pages/google/faire-barrage/urls avec la commande :

(cd pages/google/faire-barrage ; wget -i urls)

L'aspiration s'est faite à la main ( 3*4 utilisations de la commande ci dessus ), mais peut être automatisée sans problèmes. ( Une petite exception pour CorpusLeMonde doit être gérée pour ne pas coder de mot de passe dans les scripts. Note 1)

Figure 1. Organisation des répertoires

layout

Choix des pages

Seules les pages ayant une extension .htm , .html , shtml etc.. ont été choisies pour être aspirées. Nous n'avons pas aspiré de sites dynamiques ni de document PDF. Certaines des pages aspirées contiennent plusieurs frames.
De plus, afin de ne pas compliquer le mise en correspondance des Urls et des noms de fichiers locaux, nous avons choisi des Urls pour lesquelles le nom du fichier créé par wget était unique pour un moteur donné et un mot clé donné (Note 2).

Extraction et balisage du texte à partir des pages aspirées.

On utilise la commande lynx pour créer un fichier texte qui sera ensuite purgé d'un certain nombre de lignes qui contiennent la liste des références externes de la page. Ces dernieres ne sont pas en effet utiles pour le traitement. Le texte une fois créé, il est balisé sommairement à l'aide de grep et d'outils ad hoc.

Exemple : Le fichier html résultat de l'aspiration est transformé en un texte qui ressemble à ça.

Parenthèse: Utilisation d'Unitex pour baliser "encore plus".

Les "patterns" disponibles dans Unitex permettent de spécifier simplement et d'identifier les motifs recherchées. De plus les formes fléchies seront aussi prises en compte. Un petit script h2t automatise cette tâche. La définition des patterns se fait par le script mkpatt. ( voir Figure 2)

Un résumé des résultats obtenus est crée par le script mkuntx et est disponible ici.

Processus de création des tables

Une fois aspirées, les fichiers correspondants aux pages ont été créés par wget dans les répertoires du projet. Comme expliqué ci dessus, nous n'avons pas eu à gérer la correspondance entre un nom d'Url et un nom de fichier local créé par wget. Cette dernière a été programmée simplement sur le modèle suivant :

Exemple:

Nom complet de l'Url aspirée   ---> Nom du fichier local utilisé
http://users.skynet.be/suffrage-universel/fr/khiari.htm khiari.htm


Le processus se déroule comme suit :
  1. On lance le script qui s'appelle process et qui pilote l'ensemble des opérations.
  2. Pour chaque fichier correspondant à une Url aspirée, on applique la commande stabilo
  3. Une fois les pages crées, on fabrique les tables dans le répertoire documentation avec la commande mkhtm.
( Si on veut essayer : cd projet ; rm -rf result ; cd bin ; ./process )


Note 1: La Documentation de wget mentionne la possibilité de mettre le compte de connexion dans un fichier ~/.getrc ou ~/.netrc que l'on protégera en lecture. En tout état de cause, la transmission des mots de passe en clair posera des problèmes de sécurité.

Note 2:  Pour simplifier, aucune analyse soignée des erreurs et du "log file" de wget n'a été faite. La correspondance entre le nom d'Url et le nom du fichier local devrait être faite à ce moment du processus.

Note 3: Certaines pages aspirées font référence à des pages dynamiques. Il est alors possible d'avoir une erreur lors de la consultation dans colonne page aspirée..


Résultats du traitement


Les tables crées ci dessus sont consultables en suivant pour un moteur les liens ci dessous:



Problèmes rencontrés


Nous avons consignés le calendrier de nos activités et les problèmes rencontrés ici.

Conclusion:

    Les anglais sont fiers d'annoncer qu'il faut 80 000 ans pour lire ce que contient la British Library. Pourtant face à des corpus si immenses, il nous faut, pour les étudier, des outils appropriés.
    Pour 
notre premier mini-corpus d'une cinquantaine d' urls sur le lexème barrage, nous avons travaillé sur la toile web, source intarissable d'informations. Nous avons bien évidemment dû nous tourner vers des moteurs de recherche pour faire une première sélection.
    Nous nous sommes interrogés sur les différents sens de ce mot en contexte, inspirés par les recherches sur l'automatisation de la tâche de désambiguïsation lexicale et sur les dictionnaires distributionnels qui semblent être en plein essor.
Et c'est ainsi que nous avons découvert une multitude d'utilisations du mot barrage, comme par exemple, "barrage de guitare" ou encore "Barrage" en nom propre: nom de bistrot ou de restaurant (La Taverne du Barrage Restaurant bar brasserie Saint-Malo en Bretagne, ou nom de livre: Les aventures de Lassie numéro 3 Le Barrage).
    Une fois, nos quatre sens choisis, nous avons utilisé des outils informatiques tels que Wget, Lynx, egrep et créé des boucles pour automatiser les tâches d'extraction, de filtrage.