Quand une ou plusieurs lettres du mot recherché sont en majuscule, le mot n’est pas reconnu par la commande sed et le lien vers la page contexte n’est donc pas créé.
La solution trouvée à ce problème est l’emploi d’une expression régulière qui contient les formes minuscule et majuscule de chaque lettre du mot :
[bB][aA][rR][rR][aA][gG][eE]
Cependant lors de la généralisation du programme à n'importe quel mot cette technique ne marche plus car on ne peut plus décrire cette expression régulière manuellement. Il faut une fonction qui fasse la transformation et l'affecte à une variable. Nous n'avons pas réalisé cette fonction par manque de temps.
Si le mot recherché contient des caractères spéciaux (par ex. é, è, à, î…) le résultat du traitement se limitera aux pages ayant le même encodage que le mot affecté à la variable lors de la lecture au clavier. En effet comment un caractère codé sur un octet peut-il être égal à un caractère codé sur deux octets ?
Travailler sur cette question pourrait amener à généraliser le programme aux langues employant des alphabets non latins ou latins étendus.
Pour les problèmes de dernière minute survenant avec le téléchargement par wget, on peut se rapporter à notre billet du blog intitulé : AB-CJ : dernier problème avec wget.
Il arrive parfois que le contenu de certaines pages change ou devienne inaccessible (par ex. sur le site des quotidiens dont les archives sont payantes), ce qui entraîne le téléchargement d'une page n'employant plus le mot en question. La colonne contexte sera donc vide.
Enfin, il existe aussi un problème de nature juridique: à savoir qu'en droit français, on ne peut enregistrer localement une page internet sans l'autorisation de l'auteur, cela constituant un délit de contrefaçon. Que faire ?
Pour ceux d’entre nous qui n’avaient pas de connaissance en la matière, la réalisation de ce projet a permis de sortir de la perspective unique Windows et de découvrir le mode de travail en ligne de commande, mais aussi d’apprendre les bases du langage html et d’avoir une première expérience de programmation shell.
D’autres parts pour ceux qui avaient déjà quelques connaissances en shell, cela a permis d’approfondir certains points : les tests, les codes de sortie de programme, les redirections, ...
Nous avons acquis une maîtrise des outils indispensables au traitement d’une question linguistique simple – dans notre cas, l’exploration des différents emplois d’un mot dans une langue donnée.
On devinait facilement les potentialités que recèle Internet dans le domaine de la constitution de corpus, mais c’est seulement pendant l’exploration de notre mot qu’on s’est rendu compte des difficultés de sélection et de tri dues à la non structuration de cette énorme masse d’information. Une fois cette information triée et la capture de cette exploration interréseaunale faite, on devrait pouvoir commencer à exploiter ce corpus, car tel était le but de sa constitution.
Enfin la possibilité de choisir de travailler seul ou en groupe nous a montré les avantages du travail d'équipe, sans que les différences de niveau entre nous ne posent de problèmes.
L'emploi du blog comme d'un journal en ligne a été également utile pour faire avancer les travaux en favorisant le partage des connaissances entre les élèves, et pour permettre à ceux-ci de se découvrir un peu plus, ainsi que de pouvoir tisser des liens s'étendant au-delà de la toile.