Historique
Première étape: CREATION DE L'ENVIRONNEMENT DE TRAVAIL
Ce premier pas,
d’apparence anodine, donne tous son sens
à la notion de "projet encadré".
D'une part, il remet bien en place les notions de répertoire
et
de chemin et introduit les premières gammes sur
cygwin. D'autre
part cet environnement s'est
révélé être un cadre
efficace sur l'ensemble
du projet. Si nous l'avons ponctuellement enrichi de
petites verrues (listes de chemins, pense-bêtes
divers, programmes
annexes), ces verrues ont
facilement trouvé leur place dans ce cadre.
Premières difficultés avec cygwin, le cygwin de
Paris III
étant plus riche et performant que celui de nos ordinateurs
portable. Mise à jour sur INTERNET
et au petit bonheur la chance des cygwins personnels.
Deuxième étape: PREMIER TABLEAU HTML
Ce premier tableau reprend simplement la liste des URLs et les rend "cliquables" par l'utilisation de la balise <a href> . La structure de ce premier programme est simple: Il s'agit d'une boucle sur "i", indice de ligne. Cette structure sera conservée dans les étapes ultérieures, chacune d'elle consistant à rajouter une nouvelle fonction dans la boucle et à compléter l' instruction d'affichage.On créera un tableau pour chaque langue.(1er tableau)
Troisième étape: ASPIRATION DES PAGES WEB
Le principe est de
télécharger des pages Internet afin
de pouvoir les consulter hors connexion.
Pour ce faire, nous avons introduit dans la boucle de notre programme
la commande wget pour aspirer
les pages, et modifié la ligne
de
programme traitant l'affichage. Ainsi
apparait la seconde colonne du tableau, composée des liens
permettant d'accéder aux
pages aspirées.Pour réduire la taille des
cellules, on
remplace l'affichage des liens des deux colonnes par
un
numéro.
Là aussi on note des difficultés pour installer
wget sur
les
portables.(2ème
tableau)
Quatrième étape: EXTRACTION DU TEXTE
L'opération consiste à extraire le texte brut des pages aspirées et à le stocker dans un répertoire "DUMP", lui aussi adressable à partir de la troisième colonne de notre tableau principal. La encore, introduction d'une nouvelle instruction (lynx -dump -nolist )et modification de la ligne traitant des affichages.(3ème tableau)
Cinquième étape: RECUPERATION DES CONTEXTES
Pour apprécier les
contextes on recueille, à partir
des fichiers DUMP, les lignes où figurent notre mot
"point"
(ou "points") dans des fichiers CONTEXTES. Pour ce faire il convient de
modifier notre programme à 3 endroits:
-Mise en place d'une variable "motif" pour pouvoir introduire le motif
du contexte.
-Introduction, dans la boucle du programme de l'instruction egrep
permettant de saisir le contexte autour du motif.
-modification de la ligne traitant des affichages afin de pouvoir
appeler chaque contexte depuis le tableau principal.
(4ème
tableau)
Sixième étape: AMELIORATION DU SCRIPT
Le script de base permet de
créer un tableau tout à
fait présentable, cependant, on se permet quelques
modifications
afin de réaliser un script
final bien meilleur.On utilisera
par exemple la balise <style> pour
changer la couleur de certaines cellules du tableau ou bien alors celle
de la bordure.En effet, la balise <border-color> étant
interprétée différemment selon que l'on ouvre la
page avec Internet Explorer ou bien avec Firefox, la balise
<style> s'est révélée fort
intéréssante.
Chaque tableau sera divisé en plusieurs
sous
tableaux, ce
qui permettra de représenter les différents sens
du mot
"point".Il sera nécessaire de créer dans notre
environnement
de travail
, un nouveau
dossier
contenant les liens "URLS_2" .On
créera
à
l'intérieur, deux sous dossiers "FRANCAIS"
et "ANGLAIS"
dans
lesquels on mettra les fichiers textes. Chaque fichier texte
contiendra une liste de liens pour un sens
donné. Les
numéros affichées sur le tableaux, des liens,
pages ,dump
et contextes n'iront plus de 1 à 25 mais de 1 à
50.(tableau
final)
Septième étape: LA FIEVRE DU JEU: EXPLORATION DES LOGICIELS D'AFFICHAGE
Pour tous ces logiciels il faut
préparer un fichier
rassemblant l'ensemble des contextes. On a donc écrit un
petit
programmes" fusion-contexte.sh".
-Wordle
donne le
résultat le plus spectaculaire et indique par sa
représentation graphique, la fréquence des mots du
contexte de "point".
-Tagcloud
Builder
donne le même
résultat, en moins
spectaculaire.Pour cela il suffit charger un liste de mot avec son
nombre
d'occurences dans le corpus.nous utiliserons l'utilitaire Dico.
pour cette opération.
-Treecloud
nécessite un fichier sans ponctuation. On a donc
écrit un petit programme "sansponctuation.sh"
pour lequel la
commande " tr
"[.:,*'-;><?=_«!|]" ' '| tr '"'
' ' " n'a pas été facile à
reconstituer. Cette application est plus intéressante
puisque
l'arbre
obtenu révèle des branches vaguement
sémantiques.
-Le
trameur
permet, à partir d'un texte, de d'extraire des instances de
patrons.
Huitième étape : MISE EN FORME
Cette dernière étape consiste à la réalisation du site. Celui ci sera réalisé à partir d'un modèle de base qui sera modifié à l'aide d'un éditeur HMTL (NVU) et d'un éditeur de texte (notepad++) pour en arriver au site final.