Manger, une pratique culturelle et psychologique

M1 TAL-Projet encadré. Site de Fatma Soliman et Emmanuelle KELODJOUE

Le script bash

Pour télécharger le script et ses ressources, cliquez ici

On se place dans notre répertoire de travail, via la commande cd. C'est un dossier nommé "PROJET-MANGER".
On crée l'arborescence du répertoire de travail via la commande mkdir.
Puis, il faut ensuite placer les fichiers d'URL dans les dossiers URLs

Création du tableau pour chaque langue

Lancement du script

Lecture du chemin des urls et du tableau à créer à partir d'un fichier input

Préparatifs

Pour chacun des fichiers d'URLs, on crée l'en-tête de la page HTML.

Boucles et conditons

Début des boucles et du tableau

Démarrage d'une numérotation qui compte les fichier d'URLs.

Démarrage d'une numérotation qui compte les lignes de chaque fichier d'URLs pour nommer les URLs aspirées dans le tableau.
Démarrage d'une numérotation qui compte les fichiers DUMP.

Première boucle : pour chaque dossier de langue présent dans le répertoire des URLs.

Problèmes rencontrés

Lors de l’exécution du script, on a remarque qu'un quatrième tableau a été créé . On a lance la commande ls dans le répertoire d'URLs et on a trouve un fichier teste qui se termine avec un tilde. Celui-ci est créé à chaque fois qu'on édite un fichier d'URLs. On a essayé le script suivant pour empêcher la création d'un quatrième tableau mais il ne marche pas.

# Arrêter le script si le nom du fichier se termine avec ~ tilde
if [ "$fichier" = "~" ]
then
break
fi

Il faut supprimer ce fichier manuellement avec la commande. rm

Remarque: Vous trouverez d'autres problèmes dans notre blog.

Le traitement de chaque fichier d'URL.
La création des colonnes du tableau

Deuxième boucle: Pour chaque ligne des fichiers d'urls, on fait le suivant:
Insertion des lignes et colonnes du tableau

Wget,lynx, iconv et file

Aspiration des URLs

On aspire le contenu des URLs de chaque fichier via la commande wget, puis on les stocke dans le répertoire PAGES ASPIREES et on les nomme grâce au compteur des lignes.

On essaie d'extraire l'encodage de la page aspirée grâce à la commande file et egrep.

Si la page a été aspirée et qu'un encodage a été trouvé, on le sauvegarde dans la variable $encodage.
Si la page n'a pas été aspirée, on cherche le message d'erreur via egrep, on le copie dans la variable $contenuPageAspiree, on imprime le message d'erreur dans le tableau.
Si la page aspirée est en UTF-8, on peut récupérer directement le texte de chaque page aspirée puis on le stocke dans le répertoire DUMP-TXT et on le nomme grâce au compteur des lignes.

Si l'encodage n'a pas été trouvé, on commence par vérifier si l'encodage est connu par la commande iconv

Si l'encodage n'est pas connu par iconv, on detecte un charset dans la page aspiree en utilisant egrep avec les expressions régulières.

Si le Charset extrait est connu par iconv, on transforme l'encodage en UTF8 et on récupère le texte de chaque page aspirée puis on le stocke dans le répertoire DUMP-TXT.
Si on ne trouve pas un charset dans la page aspirée, on ne fait rien.

Si le wget est mal passé, on ne fait rien

Recherche du motif via egrep et les expressions réguliéres

On sélectionne les motifs à chercher en fonction de la langue et on les extrait via la commande egrep avec les expressions régulières. On place ces motifs dans le dossier CONTEXTE.

Extraction des contextes en html avec le programme minigrepmultilingue.

Le programme minigrepmultilingue RegExp.

Le minigrep est un programme développé par Serge Fleury et Pierre Marchal. L'objectif de ce programme perl est le filtrage dans des fichiers multilingues.
En entrée: un fichier à filtrer, le fichier DUMP-UTF8.txt
En sortie: un fichier au format HTML contenant les lignes du fichier DUMP-UTF8.txt contenant le motif visé.
Fichier Motif: fichier texte encodé en UTF-8.
Pour plus d'infos, cliquez ici ou visitez notre blog.

Fichier Motif de Minigrep.

Résultat de Minigrep.

Fréquence du motif

On compte le nombre d'occurrences des mots cles ou des motifs dans chaque fichier DUMP.

Création du dictionnaire

Création d'un dictionnaire pour chaque fichier dump utf-8 dans le dossier INDEX.

Fichiers Globaux

On prépare les fichiers textuels qui serviront à la création des nuages et l'analyse de Trameur.
Concaténation de tous les fichiers dump, contextes et index dans des fichiers globaux.

Fin du script

Finalisation du tableau.

Liens rapides:

Le script bash