Aux disparus...
Je mentionne ici quelques pistes abandonnées mais qui ne me semblent par totalement inintéressantes car elles témoignent entre autres du fait que les problèmes rencontrés dans ce projet sont aussi bien linguistiques qu'informatiques.
Un test d'encodage pour le minigrep
Premiers mots
Avant de m'arrêter sur "société" j'ai pensé à d'autres mots qui présentaient une polysémie tout à fait convenable, ainsi que tout un tas de problèmes :
GLACE :
- 1. la glace qu'on mange
- 2. la glace que forme l'eau en dessous de 0°
- 3. la glace d'une vitrine, d'un miroir
Seulement, les acceptions 2 et 3 sont problématiques. L'acception 2 présente, d'une part, de multiples traductions possibles en japonais (koori pour la glace sur laquelle on glisse ou celle qu'on met dans une boisson --mais qu'on traduira plutôt "glaçon" en français--, et plutôt des composés en aisu--de l'anglais "ice"-- pour les sports de glisse). Quant à l'acception 3, elle est finalement très peu usitée en français contemporain (on lui préfère le plus souvent "vitre" ou "vitrine" par métonymie, voire "carreau") et donc peu très présente sur le web. On aurait pu trouver des occurrences en spécifiant le contexte ("se regarder dans la glace" p.ex.), mais le contraindre ainsi est problématique puisque c'est justement ce contexte qu'on cherche à découvrir.
FONDATION :
- 1. La fondation comme élément architectural qui soutient une construction
- 2. La fondation comme évènement créateur ("Lors de la fondation de blablabla en 1825...")
- 3. La fondation comme institution (Fondation Cartier p.ex.)
Sauf que l'acception 1 est, dans 99% des cas,
utilisée au pluriel ("les
fondations
d'un immeuble") et que l'acception 3 domine de loin, en termes de nombre
d'occurrences sur le web, les deux autres.
Test encodage pour le minigrep
Ce petit test qui aurait dû servir à
lancer le mini-grep-multilingue avec l'encodage approprié,
mais rendu inutile par le dump de mes URL japonaises sur un
autre ordinateur (les fichiers dumpés sont tous
passés en UTF-8). Je le donne ici à
titre d'exemple d'utilisation de la commande egrep : on
récupère l'information donnée dans le
charset (v. les premières lignes du code source d'une page
web), c'est-à-dire l'encodage de la page, qu'on associe
à la variable $code
dont on teste la valeur avec une boucle if.
Notons par ailleurs que, tel qu'est défini le motif, ce test
ne fonctionnera pas sur une page qui traite des encodages :)
#!/bin/bash ##Test permettant de lancer le minigrep avec le codage approprié mkdir -p ./contextes/JP/sens$i code=$(egrep -i -o "(utf-8|euc-jp|Shift_JIS|iso-2022-jp)" ./pages_aspirees/JP/sens$i/$j.html) ##l'output de egrep (=nom de l'encodage) sert d'input au test if if test $code = Shift_JIS then perl ./programmes/minigrep/mini-grep-multilingue.pl "shiftjis" ./dump/JP/sens$i/$j.txt ./contextes/motif_shiftjis.txt elif test $code = euc-jp then perl ./programmes/minigrep/mini-grep-multilingue.pl "euc-jp" ./dump/JP/sens$i/$j.txt ./contextes/motif_euc.txt elif test $code = utf-8 then perl ./programmes/minigrep/mini-grep-multilingue.pl "UTF-8" ./dump/JP/sens$i/$j.txt ./contextes/motif_utf8.txt elif test $code = ISO-2022-JP then perl ./programmes/minigrep/mini-grep-multilingue.pl "ISO-2022-JP" ./dump/JP/sens$i/$j.txt ./contextes/motif_iso2022.txt else echo "Encodage non reconnu" fi cp resultat-extraction.html ./contextes/JP/sens$i/resultat-extraction_$j.html |