1. Recherche du mot, traduction et sens action /ak.sj?~/ mot féminin J'ai choisi de travailler sur le mot "action" étant donné que c'est un mot polysémique et pour la traduction en anglais :the action/an action. Pour le sens du mot cliquez ici 2. Récolte des URLs il s'agit de choisir des URLs pour le corpus de travail. Méthodologie : la recherche des URLs s'est principalement effectué sur google vous pouvez voir la liste des URLs sur mon blog. 3. Construction de l'arborescence de travail Pour la création des tableaux il faut tout d'abord construire une arborescence de travail qui sera utilsé tout au long du projet .Elle contient six répertoires:
Après la création de ces dossiers, j'ai recupéré le script du cours pour pouvoir démarer et l'ouvrir sur notepad, vous pouvez voir le lien à la fin de la page.n 4. Aspiration de pages avec WGET Il s'agit d'aspirer le contenu des différentes URLs, de l'enregistrer dans un fichier .txt pour chacune d'entre elles.Ensuite, créer les liens vers ces copies dans la 2ème colonne du tableau. Pour cela, j'ai utilisé la commande wget avec l'option -O. 5. Récupération de textes brut avec LYNX-DUMP L'opération consiste à extraire le texte brut des pages aspirées et à le stocker dans un répertoire "DUMP".Cet étape du script introduit la commande UNIX appelée LYNX. Celle-ci permet de filtrer (« dumper ») le texte des pages aspirées. La commande lynx avec l'option dump convertit les pages Web en pages texte contenant les liens qui mènent à ces derniers. J'ai sauvegardé localement le fichier et rajouté une 3ème colonne au tableau. 6. Filtrage du contexte avec EGREP Le dernier script consistait à créer plusieurs tableaux de liens avec 4 colonnes (URL, fichier aspiré, dump, contextes) notamment à l’aide de la commande Egrep Cet commande permet de rechercher dans des fichiers des lignes contenant un motif donné. Son utilisation implique une maîtrise des expressions régulières. Nous pouvons le considérer ainsi comme un outil d’extraction d’information. La commande Unix egrep permet de chercher le mot "action" dans notre corpus. Chaque ligne tapée est
Syntaxe : egrep <motif> <fichier> Quelques exemples de paramètres : -i : indique à grep de traiter indéféremment les majuscules et les minuscules -w : indique à grep que l’expression doit correspondre à des mots entiers -x : indique à grep que l’expression doit correspondre à des lignes entières 7. Présentation du rapport final On attaque la dernière phase la création des nuages ce que j'ai mal réussi. voici les liens dont je me suis servie pour réalisé ces différentes étapes : http://www.site.com/fichier.html http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/cours/atomatisationdestaches-etape1.html" target=?
http://www.fil.univ-lille1.fr/~caronc/AEL/tpgrep.pdf http://www.univorleans.fr/lifo/membres/Yannick.Parmentier/perl/cours1.pdf http://mauny.net/data/courses/unix/cours4.pdf ? target=" |
Les étapes du projet |
© 2011 |