Ce projet a pour objectif de construire un corpus multilingue. Il consiste à choisir un mot ambigu dans le français puis trouver ses traductions dans d'autre langue, dans notre cas nous avons choisi l'anglais, ensuite récupérer des pages web contenant les différents sens du mot de départ et ses traductions.
Ce projet, dans le cadre de traitement automatique de langues, avait pour objectif d'approfondir nos connaissances dans l'automatisation des tâches de traitement textuel. Le travail consistait à appliquer des traitements semi-automatiques aux données recueillies en utilisant les outils spécifiques énumérés en bas.
Pour ceux qui souhaitent se familiariser avec les outils de notre projet, nous vous invitons à consulter les liens vers les pages qui contient les explications plus approfondies sur les outils pour combler les résumés que nous avons fournis:- wget : wget permet d'aspirer les contenus des pages web
- lynx : Lynx est un client world wide web qui fonctionne sous Unix, sous Dos, et windows 3.11 et 95. Elle permet l'affichage en mode texte des documents html dont des liens sont préalablement stockés dans le système local ou distant
- egrep : Egrep est une commande qui permet d'extraire des lignes dans un fichier contenant le motif recherché
-cygwin : Cygwin est une collection de logiciels libres qui tente de créer un environnement Unix sous Windows
Plus loin dans cet éxposé vous trouverez des captures écrans et des liens reprenant chaque étape du travail réalisé ansi que la presentation finale. Nous vous invitons également de consulter notre log-book où nous avons publié des billets retraçant nos activités.Au départ, nous avoins choisi de faire notre projet en quatres langues : français, anglais, swahili et malgache ; anglais et swahili parce que ces sont les langues du pays natal de Sylvia et malgache parce que c’est la langue natale de Norolalaina. Après réflexion, des problèmes de traduction et le temps qu'il nous a fallu pour trouver des pages web qui convenait, nous nous sommes décidées de travailler que sur le français et l'anglais, bien que le malgache et le swahili auraient été aussi pertinents comme langues sur lesquelles mener notre projet.
Nous avons eu en option plusieurs mots tels service, nature, affaire,… Mais le choix final était pour le mot « piste » parce que nous l’avons trouvé plus ambigu et que les différents sens en anglais étaient plus faciles à trouver sur le web.
Nous avons choisi à nous restreindre aux cinq sens du mot piste bien que nous sommes conscientes d'autres utilisations possibles. Voici un petit tableau avec les differents sens du mot piste et leurs traductions en anglais.
Sens en français | Traduction en anglais |
Piste d’aviation | Runway |
Jeu de piste | Hare and hounds, paper chase |
Piste dans une enquête | Clue,evidence, lead |
Piste de musique | Soundtrack |
Piste de sport | Track |
Nous avons enregistré les URLs en format texte, dans des fichiers différents selon les différents sens. Un fichier contient un nombre égal d'URLs en français et en anlglais separés seulement avec une ligne vide pour faciliter la tâche de la différenciation entre les pages des deux langues. A chaque fichier ont été appliquées les commandes explicitées au debut de cet exposé. Nous avons choisi d'utiliser un seul fichier pour illustrations de notre démarche car tous les fichiers ont les mêmes attributs ; seul les chemins vers les différents fichiers sont differents.
Nous avons appelé le script sous "cygwin"
Syntaxe : Wget –i fichier.txt : récupérer tous les URL contenus
dans fichier.txt
On l’a appliqué dans chacun de nos cinq fichiers
d’URLs. Voici un exemple de script pour le contexte
"piste-runway".