LE FEU « MULTILINGUE »


Ce site est réalisé dans le cadre du projet « La vie «multilingue » des mots sur le web », partie intégrante du cours « Programmation et projet encadré ».
L’objectif de ce projet est d’élaborer un processus de traitement semi-automatisé permettant de gérer des contenus textuels des pages web en différentes langues où figure un mot choisi au préalable.
L’étape finale consiste à extraire des contextes où le mot en question apparaît.
Le mot « feu » est celui que nous avons décidé de retenir pour notre projet. Nous avons arrêté notre choix sur le mot « feu », polysémique dans les langues étudiées : anglais, français, russe et turc. L’analyse des significations de ce mot dans ces quatre langues constitue la partie linguistique du projet.
Nous avons constaté une multitude de significations du mot « feu » dans chacune des langues et, en nous appuyant sur les définitions des dictionnaires monolingues, nous les avons regroupées de la façon suivante :

  1. Combustion : anglais, français, russe, turc
  2. Tir : anglais, français, russe, turc
  3. Lumière : anglais, français, russe
  4. sens figuré (passion) : anglais, français, russe (en turc le mot « feu » au sens figuré signifie plutôt « colère » ou encore « chagrin »)
  5. Fièvre : signification retenue pour le turc (compte tenu du nombre d’occurrences dans cette langue)
Nous avons fait abstraction des acceptions moins courantes, telles que « appareil de chauffage » ou « enthousiasme » en anglais et en turc.
Plusieurs URLs ont été sélectionnés par acception retenue dans chaque langue.
Après avoir déterminé les données à traiter, nous avons commencé la réalisation des scripts.
Le premier script nous a permis de créer une arborescence de dossiers qui constitue notre environnement de travail.
Ensuite nous avons créé des scripts shell nous permettant de faire des tableaux contenant
  1. les URLs sélectionnés ;
  2. les pages aspirées correspondantes ;
  3. la liste des textes extraits des pages aspirées ;
  4. les contextes où le mot « feu » apparaît.
L’étape finale était la création d’un tableau englobant tous les URls retenus, par langue et par signification.




©2009-2010 Ekaterina Ostapenko, Julie K., Aray Basak