Notre
projet consiste en : "la mise en oeuvre d'une chaîne de traitement textuel
semi-automatique, depuis la récupération des données jusqu'à leur
présentation."
Nous
avons alors choisi un mot qui présente une certaine ambiguïté lexicale et nous
avons recherché les urls où ce mot apparaissait sous ses différents sens.
Comme notre corpus devait être bilingue, nous avons
alors fait nos recherches pour la français et l'anglais.
Enfin,
nous avons fait différentes manipulations sur
ces urls dans le but d'obtenir leurs contextes d'apparition du mot. Ces
derniers nous permettront à leur tour de retrouver les
différents emplois de ce mot .
Les différentes étapes du projet :
- choix du mot Corps/body
- recherche d’urls pour chaque langue (le français et
l’anglais). Les urls seront stockés dans un fichier texte.
- aspiration des pages web grâce à l’outil wget
- récupération du texte des pages aspirées grâce à
l’outil lynx
- filtrage du texte pour ne garder que les mots corps
et body avec leurs contextes. Pour cette étape, utilisation de l’outil egrep
Pour plus d’informations sur le fonctionnement des outils, voir la page Outils de notre site.
Bonne lecture !
Marion Iché et Haruka Sato