1. Recherche du mot, traduction et sens

action /ak.sj?~/ mot féminin 

J'ai choisi de travailler sur le mot "action" étant donné que c'est un mot polysémique et pour la traduction en anglais :the action/an action.

Pour le sens du mot cliquez ici

 2. Récolte des URLs

il s'agit de choisir des URLs pour le corpus de travail.

Méthodologie : la recherche des URLs s'est principalement effectué sur google vous pouvez voir la liste des URLs sur mon blog.

3. Construction de l'arborescence de travail

Pour la création  des tableaux il faut tout d'abord  construire  une arborescence de travail qui sera utilsé tout au long du projet .Elle contient six  répertoires:

Après la création de ces dossiers, j'ai recupéré le script du cours pour pouvoir démarer et l'ouvrir sur notepad, vous pouvez  voir le lien à la fin de la page.n  

4. Aspiration de pages avec WGET

Il s'agit d'aspirer le contenu des différentes URLs, de l'enregistrer dans un fichier .txt pour chacune d'entre elles.Ensuite, créer les liens vers ces copies dans la 2ème colonne du tableau. Pour cela, j'ai utilisé la commande wget avec l'option -O.

5.  Récupération de textes brut avec LYNX-DUMP 

L'opération consiste à extraire le texte brut des pages aspirées et à le stocker dans un répertoire "DUMP".Cet étape du script introduit la commande UNIX appelée LYNX. Celle-ci permet de filtrer (« dumper ») le texte des pages aspirées. La commande lynx avec l'option dump convertit les pages Web en pages texte contenant les liens qui mènent à ces derniers. J'ai  sauvegardé localement le fichier et  rajouté une 3ème colonne au tableau.

6. Filtrage du contexte avec EGREP 

Le dernier script  consistait  à créer plusieurs tableaux de liens avec 4 colonnes (URL, fichier aspiré, dump, contextes) notamment à l’aide de la commande Egrep

Cet commande permet de rechercher dans des fichiers des lignes contenant un motif donné. Son utilisation implique une maîtrise des expressions régulières.

Nous pouvons le considérer ainsi comme un outil d’extraction d’information.

La commande Unix egrep permet de chercher le mot "action" dans notre corpus. Chaque ligne tapée est

  • soit recopiée par egrep, si le motif s’y trouve,
  • soit ignorée.

Syntaxe : egrep <motif> <fichier>

 Quelques exemples de paramètres :

-i : indique à grep de traiter indéféremment les majuscules et les minuscules

-w : indique à grep que l’expression doit correspondre à des mots entiers

-x : indique à grep que l’expression doit correspondre à des lignes entières

7. Présentation du rapport final

On attaque la dernière phase la création des nuages ce que j'ai mal réussi.

voici les liens dont je me suis servie pour réalisé ces différentes étapes :

http://www.site.com/fichier.html

http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/atomatisationdestaches-etape1.html" target=?

http://www.fil.univ-lille1.fr/~caronc/AEL/tpgrep.pdf

http://www.univorleans.fr/lifo/membres/Yannick.Parmentier/perl/cours1.pdf

http://mauny.net/data/courses/unix/cours4.pdf ? target="

Les étapes du projet
© 2011