Ces pages ont été construites par Faïna Ramdani (DESS Traductique, INALCO) et Sébastien Delahaye (DESS Ingénierie Multilingue, INALCO) dans le cadre d'un projet Plurital consacré à la recherche des sens du terme « barrage ». Le but du projet était d'automatiser une partie des tâches de la recherche et récupération d'informations.
On trouvera dans ces pages l'ensemble des données nécessaires à la compréhension du projet, de l'organisation des fichiers sur le disque aux résultats eux-mêmes. Nous avons également rédigé un trépidant journal de nos péripéties, qui contiendra des informations plus détaillées que la présente page.
De base, l'application contient une poignée de fichiers et deux dossiers. Les fichiers sont des scripts : barrage.sh, cleanBarrage.sh et makeHtml.sh ; le premier sert à lancer l'application elle-même, qui va récupérer des pages web sur Internet, les copier en local puis les transformer en texte et générer des tableaux HTML à partir de tout ça ; cleanBarrage.sh est un script de maintenance, qui supprime tous les fichiers téléchargés ou générés, afin d'accélérer les procédures de test ; enfin, makeHtml.sh génère la présente page à partir de données présentes dans le dossier src/.
Ce dossier src/ contient quatre fichiers : un fichier variables.sh avec toutes les variables utilisables dans les trois scripts sus-cités, et trois fichiers HTML, qui contiennent soit le début du code HTML des pages du projet (header.html), soit sa fin (footer.html), soit le contenu même de cette page (index.html). Un quatrième fichier .html contient le journal. Mais remontons d'un cran et passons à l'autre répertoire : sources/. Celui-ci contient uniquement des fichiers texte au format .txt. Le nom du fichier désigne un sens du mot « barrage ». Chaque fichier contient une liste d'URIs à télécharger.
Quand on lance le script barrage.sh, trois dossiers vont être créés : htmldocs/, text/ et context/. Le script créera ensuite dans chacun de ses dossiers un sous-dossier par sens de « barrage », puis y placera les fichiers téléchargés : une page web dans un sous-dossier de htmldocs/, la même page en texte brut dans l'arborescence de text, etc. Enfin, le script barrage.sh génère également quatre fichiers HTML dans le répertoire d'origine, en s'aidant des fichiers header.html et footer.html déjà évoqués. Ces fichiers correspondent à des tableaux de liens vers les ressources originelles ou locales.