Journal de bord
Le
travail de constitution de corpus à la base des archives du
« Monde »
a été constitué manuellement. Notre recherche a
été facilitée par le moteur de
recherché interne du site qui nous a non seulement donné
le lien vers un article
ou une actualité, mais également le contexte avec le mot
« barrage » surligné.
La première lecture des résultats affichés nous a
orienté dans la définition
des domaines sémantiques d’application. Les domaines que
l’on a pu faire
ressortir dès le début, sont les suivants :
1)
domaine du premier sens du
mot ; le sens le plus répandu, est le sens physique du mot
–
l’hydraulique
(dossier sens1_hydro) ;
2) domaine des forces
de l’ordre publique – militaires ou
policières (dossier sens2_force) ;
3) domaine politique
(sens3_polit) ;
4) domaine sportif
(sens4_sport) ;
5) autres sens (sens5_autres).
- La
première tâche accomplie était l'aspiration des
pages HTML dans les
répertoires spécifiés
à
l’aide de la commande WGET.
Voici un exemple de ligne de commande utilisée
pour télécharger une liste de pages du corpus du
Monde avec WGET:
wget --http-user=plurital
--http-passwd=motdepasse -i URL_sens1.txt
ou
URL_sens1.txt
est un exemple de liste d'URLs pour
téléchargement (format texte, fichier créé
à l'aide d'un petit script
proposé par nos professeurs).
- Afin
de procéder au traitement et l’analyse du contenu des
fichiers, on a utilisé la
commande LYNX -dump pour
« débaliser » les pages aspirées.
- Après
la visualisation des résultats, nous nous sommes aperçus
de la présence des
éléments « parasites », des
nominations des fichiers-images (.gif)
dont nous nous sommes débarrassés grâce à la
commande SED.
- La
seconde difficulté révélée est
l’adjonction de l’extension .txt
à celle préexistante .html (par
exemple, article_424343.html à article_424343.html.txt. Pour pallier
ce problème,
on a utilisé l’enchaînement de commandes BASENAME | CUT.
- Les
dernières opérations de travail consistaient en
extraction de différents
contextes du mot barrage. Pour ceci, on a fait le choix de
repérer par le moyen de la commande EGREP
1)
toutes les occurrences du mot
« barrage » dans nos
fichiers ;
2)
telles expressions fixes que
« faire barrage », « tir de
barrage » ou « match de barrage ».
=> En conclusion, la
pratique des tâches automatisées à
l'intérieur du projet encadré nous a permis de construire
un corpus pertinent,
d'effectuer sa première
analyse
sémantique en mettant en lumière plusieurs usages
du mot
en question propres au domaine
de la presse écrite.