Afin de débuter notre projet, nous avons cherché un mot pertinent, de préférence.
Tout d'abord, nous avons pensé à des mots comme feuille, toile, opération, … Finalement notre choix s'est arrêté sur le mot mémoire. En effet, à l'aide d'un dictionnaire sur le web, nous avons pu rescencer les différentes définitions de ce mot.
De plus, nous avons choisi d'étudier le mot mémoire à travers trois langues qui sont le français, l'anglais et le polonais. Par la suite, nous avons constitué une liste d'URLs (environ 25 par langue) dans lesquelles apparaissent le mot mémoire.
Grâce à cette liste d'URLs nous avons pu sélectionner les sens qui étaient les plus pertinents du mot mémoire :
Nous créons une arborescence de travail qui sera la même tout au long du projet.
Six répertoires sont donc créés :
Le premier script que nous avons écrit permet de créer un tableau contenant des liens. En effet, ce tableau est un fichier HTML qui regroupe toutes les URLS (ce sont des liens cliquables).
Les scripts sont visibles dans la page SCRIPTS
Ce second script nous a permis de créer un tableau de liens avec des liens externes vers les pages visées et des liens internes vers les pages correspondantes aspirées. Nous obtenons ainsi un tableau à deux colonnes regroupant les URLS et les pages aspirées.
WGET est une commande UNIX. C'est un gestionnaire de téléchargement libre. Il permet le téléchargement avancé de fichiers sur des réseaux et sur Internet.
La commande « wget -O ../PAGES-ASPIREES/FR/$i.html $nom » permet de sauvegarder la page aspirée des URLS dans le dossier PAGES-ASPIREES.
Ce troisième script introduit la commande UNIX appelée LYNX. Celle-ci permet de filtrer (« dumper ») le texte des pages aspirées.
Nous avons utilisé la commande lynx avec deux options qui sont -dump et -nolist. Ceci permet d'obtenir les contenus textuels des pages sans les listes de liens.
Grâce à ce script, nous obtenons un tableau à trois colonnes : URLS / pages aspirées / dump-text.
Cependant, les pages dumpées du polonais rencontrent des problèmes d'encodage. Malgré le fait que les sites polonais soient encodés en ISO 8859-2, lynx les traitait comme étant en ISO Latin 1. Après vérification du lynx à l'INALCO sous Mandriva où les problèmes d'encodages ne ressortaient pas, une solution a été trouvée : il suffit de rajouter une option à la commande lynx pour laquelle l'encodage désiré pour la page dumpée est spécifié. Il convient donc de rajouter lynx -dump -nolist -display_charset=UTF8.
Nous avons ajouté dans notre script la commande egrep qui permet de filtrer un motif. Pour ce faire, on ajoute une quatrième colonne dans le tableau (colspan = 4) que l'on a appelée CONTEXTES. Puis au début de la boucle, on lit une variable qui s'appelle motif qui est remplie par le contenu de fr1.txt qui contient pour le français, le mot mémoire qui est donc notre motif. On ajoute une ligne pour egrep avec l'option -i. Enfin, on cherche notre motif dans les fichiers contenus dans DUMP-TEXT/FR qui contient les textes dumpés et on redirige le résultat de egrep dans CONTEXTES/FR. Pour finir, ces résultats sont mis dans la quatrième colonne de notre tableau.
Par ailleurs, avec la commande egrep nous avons rencontré des problèmes d'encodages pour le polonais. Ainsi, nous avons installé le minigrep présenté en cours sur cygwin. Nous avons eu des soucis avec les expressions régulières dans le script en perl. En effet, en polonais à cause des déclinaisons, il faut chercher plusieurs formes du mot dans le fichier dumpé. Avec l'aide de M. Fleury nous avons trouvé une solution :
ligne 73:
$formein=~/MOTIF=(.*)/;
ligne 113:
while ($ligne =~/($forme)/g)
lignes 115-117:
my $droite = $';
my $formereconnue=$&;
my $test=0;
ligne 127:
print FILEOUT "<.li><.font color=\"blue\"><.b>Ligne n°$i : $gauche<.font color=\"red\"><.b>$formereconnue<\/.font>$droite "; #forme reconnue au lieu de forme $verif=1;
Puisqu'on a décidé de traiter sept sens du mot mémoire en 3 langues, nous avons pensé alors à faire un nuage par sens et par langue.
Afin de réaliser ces nuages, nous utilisons WORDLE.