Journal de bord 2
La grande difficulté est arrivée à la fin novembre.
☆ fin-novembre ☆
Les Contextes ne marchent pas. Ma collègue et moi, on essaie chaqu'une sur son ordinateur.Elle utilise windows vista, et moi, mac OSX.
☆ début-decembre ☆
Ma collègue a réussi à régler les problèmes!!Mais avec mon mac, ça ne marche toujours pas...
Pages-aspirées ➝ pages en blanc
Dump-text ➝ pages en blanc
Contextes ➝ occurences = 0
☆ la suite : jusqu'au dernier cours ☆
D'où viennent les problèmes? J'ai vérifié l'encodage de toutes les pages en japonais. Il y avait: Shift JIS, EUC, UTF-8. Sauf les pages en UTF-8.il n'aspire pas correctement!
d'abord, → #Telecharger les pages
if [ $want_dl = 1 ]; then
echo $nom
wget -t 20 -O ./PAGES-ASPIREES/$i.html $nom
Bon, réglé!
puis, → #Dump des pages en texte
lynx -nolist -dump -assume_local_charset=utf-8 -display_charset=utf-8 -dump ./PAGES-ASPIREES/$i.html > ./DUMP-TEXT/$i.txt
ensuite → #recuperation du contexte
grep -i -B1 -A1 "关系" ./PAGES-ASPIREES/$i.html
grep -i -B1 -A1 "関係" ./PAGES-ASPIREES/$i.html
La plupart des problèmes d'encodages sont réglés.
Mais il en reste encore... Apparement, lynx ne fonctionne pas bien avec mon ordinateur.Les Dump-text sont bien stockés dans le répertoire, je peux les ouvrir en chosissant l'application. Même chose pour les contextes, ils n'affichent que le nombre d'occurences. Mais quand j'ai testé avec windows, ce problème a été réglé.
Donc, je met le problème de côté pour l'instant.
Je reviendrai sur lynx un jour, où je connaîtrai mieux l'informatique.
☆ Je remercie tous ceux qui m'ont aidé
techniquement et psychologiquement...
surtôt
Guillaume,Remy,Serge,Teng,Toukta,Yvan