PARCOURS
Pour commencer, on devrait choisir un mot, et le mot choisi ici est « amour » ; avoir les significations dans mes autres langues de travail qui sont le malgache, le français et l’anglais.
A partir de là, il faudrait constituer un corpus fonder sur des pages web contenant le mot en question, dans les différentes langues.
Il faut donc collecter environ 50URL contenant les mots (les différentes langues), et les sauvegarder sur un fichier texte.
Rapatrier ces pages avec des outils/commandes exécutés automatiquement à partir d’un programme Shell et les sauvegarder sur l’emplacement local, qui serait dans le dossier PAGE ASPIREE.
Une fois sur place, ces données sont à filtrer (dumper), et ne prendre que le texte contenu sur les pages aspirées, et la sortie serait sauvegarder dans un fichier correspondant dans le dossier PAGE DUMP, qui serait donc du texte brut.
Maintenant intervient un autre outil nommé minigrepmultilingue, qui aurait pour but de chercher le mot correspondant à un motif qu’on lui a indiqué (préalablement choisit), pour chaque langue. Il récupère le motif et son contexte (des lignes contenant le motif : une ligne avant, une ligne après) et les sauvegarder dans un fichier correspondant, dans le dossier CONTEXTES, qui serait en fichier html.
Toutes ces étapes élaborées précédemment sont représentées dans des tableaux (page web, page en local, fichier texte, le motif et son contexte) par langue concluant en partie le rendu du projet.
Il serait aussi question des
nuages de
mots.
Le nuage de mots clef (tag cloud en anglais) est une représentation
visuelle des mots clef (tags) les plus utilisés sur un site web.
Généralement, les mots s'affichent dans des fontes d'autant plus
grandes qu'ils sont utilisés ou populaires.
Cette étape a été réalisée à partir d’un outil en ligne
Wordle qui a pour but de
montrer l’importance (nombre de répétition) du motif dans le corpus
constitué, qui donne ce qui
suit ici...