Il a fallu chercher des urls à plusieurs reprises. En fait, certains sites contiennent des entités. C'est une sorte d'encodage qui devrait faciliter la visualisation de caractères spéciaux. Pratique répandue, existe de nombreux outils de coder en entités, mais l'inverse ne se fait pas de façon universelle. Le module Perl de CPAN: HTML-Entities, ne fonctionne pas pour le cyrillique, ne donne pas les résultats attendus. (Voir le blog pour plus d'info.) On a évité d'utiliser des pages avec des entités. De plus, même pour le français, ces pages ne sont pas analysées avec le minigrep-multilingue.
Pour trouver l'encodage, il existe un module perl HTML-Encoding-0.60. Mais pour ne pas 'tomber' sur un url avec un encodage non supporté par le module, on a fait autrement. On s'est intéressé aux résultats de nos collègues, on a fait connaissance avec les programmes Perl uniligne et on en a produit un qui marche bien avec le script ci-présenté. (charset=$(perl -nle 'print $1 if (/charset=(.*?)"(.*?)/imo)' $source_file);). Avec certaine version de Perl, la partie '/o' ne limite pas la recherche à la première occurrence. Donc, on a donné préférence aux pages qui ne contiennent qu'une et une seule fois le 'charset='.
Un autre problème rencontré – cygwin fonctionne différemment avec les différents systèmes d'opération. Cela a ralenti sensiblement la vitesse de travail.