Les différentes étapes à suivre


Récupération de la balise <SURF>

Les fichiers sur lesquels on travaille comportent tous deux types de balises : une balise "SURF" qui contient une sorte de résumé de l'article intégral, et une balise "PROF" dans laquelle on retrouve l'ensemble des informations.

Ici nous avons décidé de ne travailler que sur le contenu de <SURF>, autrement les fichiers auraient été bien trop lourds. Pour cela, on lance la commande suivante dans cygwin :

egrep "\<(RUBRIQUES|ANNEE|FILE-date|article|filnamedate|filname= \"SURF\")" nom_du_fichier > sortie

On obtient alors un fichier par rubrique, ne contenant que les dates et les contenus des balises de surface. Par exemple : surf-CULTURE.txt


Nettoyage des fichiers

On remarque ensuite que vers la fin des fichiers, les rédacteurs ont dû changer de type d'encodage car les caractères accentués ne passent plus. Il est donc nécessaire de procéder à un petit nettoyage des fichiers grâce à un script en Perl, téléchargeable ici : nettoyage.pl

Une fois les fichiers nettoyés, on peut réellement commencer le traitement.


Traitement sous Lexico 3

Il s'agit maintenant de charger les fichiers obtenus dans Lexico 3 afin de regarder à quelle fréquence apparaissent les mots que l'on étudie. Pour celà, on crée un fichier : listemot.lst qui contient tous les mots qui ont été selectionnés un peu plus tôt. Voir ICI. Et on charge également cette liste dans Lexico 3 grâce au bouton "groupe de formes" :

Pour le fichier culture.txt, on obtiendra par exemple quelque chose comme ça :

De là, on prend en priorité les mots dont la fréquence est supérieure à 5 et on établit leur poly-cooccurrent avec Le Trameur (voir après). Si ceci ne nous permet pas de dégager les thèmes qui regroupent ces poly-coocurrents, on fait un concordancier avec Lexico 3 et on essaie de voir quels sont les thèmes récurrents. On utilise ce bouton :

Et voici le résultat :


Traitement avec Le Trameur

Une fois qu'on a établi quels mots on devait étudier d'après la fréquence des mots de la liste dans Lexico 3, on recherche leurs poly-cooccurrents afin de trouver les thèmes qui les regroupent.

Dans Le Trameur, sur l'onglet "Coocs", on entre le mot recherché, et on clique sur Poly-cooccurrences pour lancer la recherche.

Pour le fichier Culture.txt, on obtient le résultat suivant :

On fait ensuite de même pour tous les fichiers.