Projet : La vie des mots sur le web 
réalisé par Sylvia Ombuya et Norolalaina Rakotomalala  

NLG at work




Table des matières
   

INTRODUCTION

 Ce projet est réalisé dans le cadre d'un cursus de Master 1-TAL (pro et recherche) premier semestre de Paris 3, INALCO et Paris 10.

Objectif

Ce projet a pour objectif de construire un corpus multilingue. Il consiste à choisir un mot ambigu dans le français puis trouver ses traductions dans d'autre langue, dans notre cas nous avons choisi l'anglais, ensuite récupérer des pages web contenant les différents sens du mot de départ et ses traductions.

Ce projet, dans le cadre de traitement automatique de langues, avait pour objectif d'approfondir nos connaissances dans l'automatisation des tâches de traitement textuel. Le travail consistait à appliquer des traitements semi-automatiques aux données recueillies en utilisant les outils spécifiques énumérés en bas.  

Pour ceux qui souhaitent se familiariser avec les outils de notre projet, nous vous invitons à consulter les liens vers les pages qui contient les explications plus approfondies sur les outils pour combler les résumés que nous avons fournis:

          - bash : Bash est un logiciel qui interprète des lignes de commandes sous cygwin

- wget : wget permet d'aspirer les contenus des pages web

- lynx  : Lynx est un client world wide web qui fonctionne sous Unix, sous Dos, et windows 3.11 et 95. Elle permet l'affichage en mode texte des documents html dont des liens sont préalablement stockés dans le système local ou distant

- : Egrep est  une commande qui permet d'extraire des lignes dans un fichier contenant le motif recherché

-cygwin :  Cygwin est une collection de logiciels libres qui tente de créer un environnement Unix sous Windows 

Plus loin dans cet éxposé vous trouverez des captures écrans et des liens reprenant chaque étape du travail réalisé ansi que la presentation finale. Nous vous invitons également de consulter notre log-book où nous avons publié des billets retraçant nos activités.

Retour

  

Pourquoi l’anglais ?

Au départ, nous avoins choisi de faire notre projet en quatres langues : français, anglais, swahili et malgache ; anglais et swahili parce que ces sont les langues du pays natal de Sylvia et malgache parce que c’est la langue natale de Norolalaina. Après réflexion, des problèmes de traduction et le temps qu'il nous a fallu pour trouver des pages web qui convenait, nous nous sommes décidées de travailler  que sur le  français et l'anglais, bien que  le malgache et le swahili  auraient été aussi pertinents comme langues sur lesquelles mener notre projet.

Pourquoi le mot « piste » ?

Nous avons eu en option plusieurs mots tels service, nature, affaire,… Mais le choix final était pour le mot « piste » parce que nous l’avons trouvé plus ambigu et que les différents sens en anglais étaient plus faciles à trouver sur le web.

Sens du mot piste

Nous avons choisi à nous restreindre aux cinq sens du mot piste bien que nous sommes conscientes d'autres utilisations possibles. Voici un petit tableau avec les differents sens du mot piste et leurs traductions en anglais. 

 
Sens en français Traduction en anglais
Piste d’aviation Runway
Jeu  de piste  Hare and hounds, paper chase
Piste dans une enquête Clue,evidence, lead
Piste de musique Soundtrack
Piste de sport Track


Retour

Etape 1

Cette partie consiste à rechercher des URLs et de les mettre sous forme de tableau HTML. 

Recherche d'URLs

Nous avons cherché manuellement vingt-cinq sites en français et vingt-cinq autres en anglais. Nous avons utilisé plusieurs moteurs de recherche notamment
www.google.fr
www.babelfish.fr
www.widepress.com

Nous avons enregistré les URLs en format texte, dans des fichiers différents selon les différents sens. Un fichier contient un nombre égal d'URLs en français et en anlglais separés seulement avec une ligne vide pour faciliter la tâche de la différenciation entre les pages des deux langues. A chaque fichier ont été appliquées les commandes explicitées au debut de cet exposé. Nous avons choisi d'utiliser un seul fichier pour illustrations de notre démarche car tous les fichiers ont les mêmes attributs ; seul les chemins vers les différents fichiers sont differents. 


Création du premier tableau

 A  partir de ce point, nous avançons vers l'automatisation des tâches. Nous avons créé un script pour produire un fichier HTML d'un tableau à une colonne contenant les URLs.
 Remarque : nous avons amélioré le script au fur et à mesure de l'avancement du projet.

script de création de tableau

        Nous avons appelé le script sous "cygwin"


Retour

Etape 2

 L'étape 2 consiste à aspirer les pages web des URLs enregistrés. A partir du script créé en haut, nous avons introduit la commande "wget" .

Syntaxe : Wget –i fichier.txt : récupérer tous les URL contenus dans fichier.txt
On l’a appliqué dans chacun de nos cinq fichiers d’URLs. Voici un exemple de script pour le contexte "piste-runway".

 Script avion

     

Retour

Etape 3

L'étape 3 consiste à afficher en mode texte des documents html récupérés de l'étape précédente : avoir en entrée du programme lynx  des URLs des pages wgettées et en sortie des pages déchargées de tout élement non textuel.

 Syntaxe  : lynx -dump $nom > ./dump-texte/dump-avion/$i.txt
$nom est un variable contenant le lien du fichier html. La fléche indique une redirection de la sortie vers un fichier dump-texte enregistré sous le nom dump-avion.

 Nous avons ajouté dans notre script le syntaxe lynx avec l'option -dump qui permet le formatage.

script lynx

Nous avons appliqué le même script à chacun de nos fichiers d'URLs en changeant à chaque fois le chemin vers les URLs.


Retour


Etape 4

 Filtrage de contexte

Cet étape consiste à extraire des fichiers dumpés en français et en anglais les lignes qui contiennent le mot piste ainsi que celles  contenant le mot corréspondant en anglais. Nous avons utilisé la commande egrep et les expressions regulières. La syntaxe egrep est egrep mot fichiers. Nous avons adapté ce syntaxe pour qu'il puisse isoler les lignes dans les textes des deux langues. Pour que la recherche soit effective nous avons rajouté des expressions régulières: -i, ( ) et |

Syntaxe : egrep -i "(\bmotif\b|\bmotif\b)"  fichiers

Script amélioré

Script egrep

Retour


Etape 5 

Cette partie est l'étape finale. Elle consiste à créer un script qui permet de diriger les cinq tableaux créés vers une même page html.

Le script

Resultat


Retour

Rapport : Arborescence, difficultés rencontrées et solutions

Arborescence

Nous avons organisé notre travail comme suit: Lien
Le dossier "tab" contient le tableau final tandis que le dossier "tableau" contient les tableaux de chaque étape.

Difficultés et solutions

Au cours de l'élaboration du projet, nous avons été confrontées à plusieurs problèmes :
  • Les pages éphémères : entre le temps de récupération des pages web et leurs aspirations, certaines pages ont disparu, sont irrécupérables. Certaines sont devenues payantes. Nous avons donc été obligées de refaire des recherches, actualisant ainsi nos fichiers d’URLs. 
  • Problème avec script :  Ecrire un script est un travail délicat. Il  est important de bien définr les chemins exacts. Au debut nous n'en avons pas été conscientes jusqu'au moment de faire tourner le script où nous nous sommes rendues compte que certaines de nos démarches n'ont pas donné le résultat voulu.  La solution était en effet d'utiliser les chemins  relatifs.
  • Cygwin : Nous avons rencontré des problèmes avec le téléchargement et l'installation de cygwin car  nous n'avons pas réussi à faire tourner certaines programmes telles wget et lynx sur nos propres machines qui fonctionnent sousVista. Ce qui nous a coûté beaucoup de temps.

Retour