Etape 1: Extraction de textes
Pour extraire les parties textuelles des pages en anglais et en japonais, on réutilise le programme tableau.sh inspiré du projet mot sur le web (semestre 1). Il faudra juste effectuer quelques modifications au niveau du codage des caractères (UTF-8).
On obtient pour chaque langue un tableau qui contient les adresses, les
pages aspirées, les DUMPS et les contextes dans lequel apparait le mot
stress. Dans le cadre de se projet on ne se servira que des textes DUMP
anglais et japonais.