PARCOURS
Pour commencer, on devrait choisir un mot, et le mot choisi ici est
« amour » ; avoir les significations dans mes autres langues de
travail qui sont le malgache, le français et l’anglais.
A partir de là, il faudrait constituer un corpus fonder sur des
pages web contenant le mot en question, dans les différentes
langues.
Il faut donc collecter environ 50URL contenant les mots (les différentes langues), et les sauvegarder sur un fichier texte.
Rapatrier ces pages avec des
outils/commandes exécutés automatiquement à partir d’un
programme Shell
et les sauvegarder sur l’emplacement local, qui serait
dans le dossier PAGE ASPIREE.
Une fois sur place, ces données sont à filtrer (dumper), et ne
prendre que le texte contenu sur les pages aspirées, et la sortie
serait sauvegarder dans un fichier correspondant dans le dossier
PAGE DUMP, qui serait donc du texte brut.
Maintenant intervient un autre outil nommé
minigrepmultilingue, qui aurait pour but de chercher le mot
correspondant à un motif qu’on lui a indiqué (préalablement
choisit), pour chaque langue. Il récupère le motif et son contexte
(des lignes contenant le motif : une ligne avant, une ligne après)
et les sauvegarder dans un fichier correspondant, dans le dossier
CONTEXTES, qui serait en fichier html.
Toutes
ces étapes élaborées précédemment sont représentées dans des
tableaux (page web, page en local,
fichier texte, le motif et son contexte) par langue concluant en
partie le rendu du projet.
Il serait aussi question des
nuages de
mots.
Le nuage de mots clef (tag cloud en anglais) est une représentation
visuelle des mots clef (tags) les plus utilisés sur un site web.
Généralement, les mots s'affichent dans des fontes d'autant plus
grandes qu'ils sont utilisés ou populaires.
Cette étape a été réalisée à partir d’un outil en ligne
Wordle qui a pour but de
montrer l’importance (nombre de répétition) du motif dans le corpus
constitué, qui donne ce qui
suit ici...