PROJET
@ ENCADRÉ/INTRODUCTION
cd
..
cd
./Mot et langues
$ Parmi les nombreux cours du Master 1 PLURITAL
il y en a un
très particulier qui s'appelle PROJET ENCADRÉ sous
la tutelle de trois professeurs toujours à notre
disposition: Serge Fleury, Jean-Michel
Daube
et
Rachid Belmouhoub, de L'Université de Paris 3 et de l'INALCO.
$
L'objectif est de faire du traitement informatique sur des textes
multilingues de manière à se familiariser avec
les
différents outils que nous propose l'informatique. Au final,
il
faudra élaborer une page HTML avec un tableau multilingue, divisé
en quatre colonnes de
liens pointant vers :
- le
site web contenant le mot choisi
- la
page web enregistrée localement
- le
fichier texte débalisé extrait de la page web
locale
- le
fichier HTML où figure le contexte dans lequel est
utilisé le mot choisi.
Ce
tableau
sera généré automatiquement
grâce à un
script en bash.
$ Nous avons choisi de travailler sur trois langues : le
français,
l'arabe et le bulgare. Le mot choisi pour notre projet multilingue est
le mot "raison". C'est ainsi que nous aurons au final une
série
de tableaux pour chaque langue et chaque usage sémantique du
mot
en question.
ENVIRONNEMENT DE TRAVAIL:
$ Nous devions écrire notre script bash en utilisant Cygwin
qui
est un émulateur Unix-Linux pour Windows permettant de
créer un environnement de type Linux. Les commandes
utilisées étaient principalement wget et lynx. Nous avons aussi utilisé le programme
perl
"minigrep multilingue" élaboré par Serge
Fleury qui
nous a permis une manipulation et une recherche plus pratique
et plus agréable du contexte pour le mot "raison" en
caractères non ASCII, en l'occurrence ici, le cyrillique et
l'arabe.
cd
..