Vous êtes en train de visiter l'un des sites du projet La vie "multilingue" des mots sur le web.

Le mot magique que j'ai choisi est le mot français SOURCE, polysémique dans toutes les quatre langues sur lesquelles je travaille (français, anglais, chinois et russe).


Ce projet s'agit de la création d'une arborescence, la récolte des pages Web contenant le mot magique, l'aspiration locale de ces pages, le stockage des contenus textuels, et l'extraction des contextes du mot magique depuis ces dumps. Les résultats sont ensuite enregistrés dans un ou des tableau(x). Tout ça se fait par l'intermédiaire d'un seul script. Au cours du développement du script, des algorithmes rigoureux seront appliqués, une multitude d'outils seront employés, et des difficultés jamais imaginées seront rencontrées.


Quand le tableaux sera prêt (après que le script a été testé un millier de fois et perfectionné dans la mesure de possible), on va voir la naissance des dessins les plus jolis et les plus poétiques du monde : les nuages et les arbres de mots !


Voici la brève introduction. Maintenant, c'est à vous d'explorer la source magique.



Ruixin