LE FEU « MULTILINGUE »
Ce site est réalisé dans le cadre du projet « La vie «multilingue » des mots sur le web »,
partie intégrante du cours « Programmation et projet encadré ».
L’objectif de ce projet est d’élaborer un processus de traitement semi-automatisé
permettant de gérer des contenus textuels des pages web en différentes langues où
figure un mot choisi au préalable.
L’étape finale consiste à extraire des contextes où le mot en question apparaît.
Le mot « feu » est celui que nous avons décidé de retenir pour notre projet.
Nous avons arrêté notre choix sur le mot « feu », polysémique dans les langues
étudiées : anglais, français, russe et turc. L’analyse des significations de ce mot
dans ces quatre langues constitue la partie linguistique du projet.
Nous avons constaté une multitude de significations du mot « feu » dans chacune des langues
et, en nous appuyant sur les définitions des dictionnaires monolingues, nous les avons regroupées
de la façon suivante :
- Combustion : anglais, français, russe, turc
- Tir : anglais, français, russe, turc
- Lumière : anglais, français, russe
- sens figuré (passion) : anglais, français, russe (en turc le mot « feu » au sens figuré signifie plutôt « colère » ou encore « chagrin »)
- Fièvre : signification retenue pour le turc (compte tenu du nombre d’occurrences dans cette langue)
Nous avons fait abstraction des acceptions moins courantes, telles que « appareil de chauffage »
ou « enthousiasme » en anglais et en turc.
Plusieurs URLs ont été sélectionnés par acception retenue dans chaque langue.
Après avoir déterminé les données à traiter, nous avons commencé la réalisation des scripts.
Le premier script nous a permis de créer une arborescence de dossiers qui constitue notre environnement de travail.
Ensuite nous avons créé des scripts shell nous permettant de faire des tableaux contenant
- les URLs sélectionnés ;
- les pages aspirées correspondantes ;
- la liste des textes extraits des pages aspirées ;
- les contextes où le mot « feu » apparaît.
L’étape finale était la création d’un tableau englobant tous les URls retenus, par langue et par signification.
|