Le projet
Ce site présente les résultats d'un projet mené sur 3 mois dans le cadre du cours Programmation et Projet encadré du Master 1 TAL cohabilité par Paris 3, Paris 10 et l'INALCO (enseignants : R. Belmouhoud, JM Daube, S. Fleury --que je remercie pour son infinie patience).
Principe :
construire une chaîne de
traitement
textuel en langage bash
permettant de récupérer le contexte linguistique
d'un mot donné ainsi que celui de ses traductions dans une
(ou
plusieurs)
langue(s). Le mot choisi devait, pour rendre les choses plus
intéressantes, présenter une certaine
polysémie.
Le projet consistait en 4 étapes principales :
- Sélection d'un corpus bilingue et croisé d'une cinquantaine d'URL (=entrée du processus)
- Aspiration locale des pages web
- Transformation de la partie textuelle des pages (au format html) en fichier texte
- Filtrage du texte afin d'obtenir le contexte du mot étudié
- Construction d'un tableau présentant l'ensemble des données : page web, page en local, fichier texte, contexte du mot (= sortie du processus)
Objectif
: se familiariser avec certains outils informatique (console Cygwin,
langage bash, expressions régulières, etc.) tout
en s'interrogeant sur quelques difficultés de la traduction
et sur les problèmes (linguistiques) posés par le
traitement automatique de corpus --relativement-- larges.
Mot et langues choisies : j'ai choisi de travailler sur le mot "société" et ses différentes traductions en japonais.