Le projet

Ce site présente les résultats d'un projet mené sur 3 mois dans le cadre du cours Programmation et Projet encadré du Master 1 TAL cohabilité par Paris 3, Paris 10 et l'INALCO (enseignants : R. Belmouhoud, JM Daube, S. Fleury --que je remercie pour son infinie patience).

Principe : construire une chaîne de traitement textuel en langage bash permettant de récupérer le contexte linguistique d'un mot donné ainsi que celui de ses traductions dans une (ou plusieurs) langue(s). Le mot choisi devait, pour rendre les choses plus intéressantes, présenter une certaine polysémie.

Le projet consistait en 4 étapes principales :

Sélection d'un corpus bilingue et croisé d'une cinquantaine d'URL (=entrée du processus)
Aspiration locale des pages web
Transformation de la partie textuelle des pages (au format html) en fichier texte
Filtrage du texte afin d'obtenir le contexte du mot étudié
Construction d'un tableau présentant l'ensemble des données : page web, page en local, fichier texte, contexte du mot (= sortie du processus)

Objectif : se familiariser avec certains outils informatique (console Cygwin, langage bash, expressions régulières, etc.) tout en s'interrogeant sur quelques difficultés de la traduction et sur les problèmes (linguistiques) posés par le traitement automatique de corpus --relativement-- larges.

Mot et langues choisies : j'ai choisi de travailler sur le mot "société" et ses différentes traductions en japonais.

haut de la page »»

La vie des mots sur le web

Le projet