La vie des mots sur le web
Le projet intitulé La vie des mots sur le web a pour objectif de réaliser une "chaîne de traitement textuel semi-automatique", allant de la récupération des données à leur présentation en utilisant un script shell.
Pour ce faire, il nous a été demandé de choisir un mot français ainsi que ses traductions dans différentes langues étrangères. Notre choix s'est porté sur le mot couleur et nos langues d'étude, en plus du français, ont été l'arabe, le chinois et le coréen.
Le dictionnaire de langue Le Petit Robert 2010 recense 4 sens principaux pour le mot couleur:
1. La couleur: Caractère d'une lumière, de la surface d'un objet (indépendamment de sa forme), selon l'impression visuelle particulière qu'elles produisent (une couleur, les couleurs); propriété que l'on attribue à la lumière, aux objets, de produire une telle impression
2. Une couleur: Toute couleur autre que blanc, noir ou gris
3. Substance colorante: Substance que l'on applique sur un objet pour produire la sensation de couleur
- la liste numérotée des urls choisis
- les pages "aspirées" de ces urls (pages web enregistrées localement)
- les pages "dumpées" correspondantes dans l'encodage initial (fichiers texte sans les balises html, obtenus à partir des pages aspirées)
- les pages "dumpées" converties en UTF-8
- les mots en contexte au format texte, tels qu'ils apparaissent dans les pages web (récupérés des fichiers texte). Nous avons choisi de ne tenir compte que de la ligne qui précédait et de celle qui suivait immédiatement celle dans laquelle apparaissait le mot.
- les mots en contexte au format html.
L'avancement du projet, chaque semaine, a été consigné sur un blog.