Problèmes Rencontrés :
1. Dans la sélection de mot et des pages :
Lorsque
j'ai commencé le travail avec le mot "procédure"
jusqu'à prèsque la fin du cours, je me suis rendu compte
qu'il y avait un problème d'écriture du mot entre
français et anglais , à savoir de « le
famous accent ‘ é ‘» ainsi que leurs
codages. Donc, grâce au cours de Mme Ch. Jacquet-Pfau, j'ai
chisoi le mot d'emprunt au chinois
« Confucius »,qui existe forcément en
trois langues dans les pages web ,et qui sera plus astucieus
à manupuler.
Je
décide finalement d'utiliser google comme seul moteur de
recherche, en se concentrant sur la variété des contenus,
et de rechercher par ailleurs dans des corpus chinois, afin d'obtenir
une plus grande variété de contextes.
Un
autre problème rencontré est qu'il est difficile de
concilier une recherche extensive d'occurrences du mot Confucius et une
vérification de la qualité/fiabilité des sources
et ces pages.
La
création des liens vers les pages locales a posé
problème. Il n'a été trouvé aucune solution
interne aux outils bureautiques classiques (Excel, Word, OpenOffice),
donc le « doc.txt » est le choix le plus simple.
La liste a finalement été avec des liens absolus.
2. Dans la création d'un tableau synthétique
Dans
la création de ce tableau, certaines pages ne correspondent pas
au sujet (texte en pdf), d'autres liens présentent des erreurs :
[photo écran] et [photo écran], et une page
présente une erreur dont je n'ai pas à déterminer
la source : [photo écran]. (Il semble cependant que cette erreur
concerne la structure de la page elle-même, et nous ne pouvons
donc pas résoudre ce probème précis.) Donc,
abandonner cette page.
3. Dans le script
Certaines
versions de wget -versions relativement anciennes- sont incompatibles
avec certaines options utilisées par le script :
l'option -o (création de fichier log) ne fonctionne pas de la même façon.
D'ailleurs,
il y a aussi que des pages Internet dont le
téléchargement n'a pas fonctionné, mais qui
apparaissent malgré tout dans le tableau, avec les liens vers
les fichiers qui auraient dû être créés mais
de fait n'existent pas. Ce problème pourrait être
résolu par un test sur les fichiers, qui permettrait de
confirmer qu'ils existent avant d'éditer leur lien dans le
tableau.
Le
principal problème non résolu est celui des
« codages » , avec le
« minigrepmultilingue » et, à l'aide
des professeurs Serge Fleury et Jean-Michel Daube, j'ai pu beaucoup
avancer dans l'apprentissage de la programmation.