¤ Projet Multilingue ¤ Etape 1

Etape 1: Extraction de textes

Pour extraire les parties textuelles des pages en anglais et en japonais, on réutilise le programme tableau.sh inspiré du projet mot sur le web (semestre 1). Il faudra juste effectuer quelques modifications au niveau du codage des caractères (UTF-8). On obtient pour chaque langue un tableau qui contient les adresses, les pages aspirées, les DUMPS et les contextes dans lequel apparait le mot stress. Dans le cadre de se projet on ne se servira que des textes DUMP anglais et japonais.

ANGLAIS
SENS LIENS PAGES ASPIREES DUMP CONTEXTES

urls lien n° 1 page n° 1 dump n° 1 contexte n° 1

lien n° 2 page n° 2 dump n° 2 contexte n° 2

JAPONAIS
SENS LIENS PAGES ASPIREES DUMP CONTEXTES

urls lien n° 3 page n° 3 dump n° 3 contexte n° 3

lien n° 4 page n° 4 dump n° 4 contexte n° 4

Projet Multilingue

Bienvenue

Menu

Contacts

Etape 1: Extraction de textes

SENS	LIENS	PAGES ASPIREES	DUMP	CONTEXTES
urls	lien n° 1	page n° 1	dump n° 1	contexte n° 1
urls	lien n° 2	page n° 2	dump n° 2	contexte n° 2

SENS	LIENS	PAGES ASPIREES	DUMP	CONTEXTES
urls	lien n° 3	page n° 3	dump n° 3	contexte n° 3
urls	lien n° 4	page n° 4	dump n° 4	contexte n° 4