Les Résultats

Après la réalisation de ce projet, nous pouvons tirer plusieurs conclusions intéressantes pour chaque étape réalisée :

Sommaire

Les Scripts et Les Tableaux
Les Nuages De Mots et Les Graphes
Mots ressortant des contextes
Mots ressortant des dumps
Téléchargements
Pour aller plus loin

Les Scripts et Les Tableaux

Nous pouvons nous rendre compte que les deux scripts (perl et shell) sont à peu près équivalents. Ils réalisent un même tableau regroupant des liens vers les pages aspirées, les textes bruts et les mots en contexte. Cependant, le script bash permet d’apirer toutes nos url alors que le script en perl n’y arrive pas toujours (environ 10% des pages ne sont pas aspirées). Ces tableaux nous permettent ensuite de faire des analyses sur le contenu sémantique des sites choisis en fonction des sens. C'est donc une étape primordiale de notre projet. Perl est un langage qui permet de travailler facilement sur des données linguistiques mais dans le cas de ce projet le script shell est un choix qui semble plus judicieux : le script shell permet de travailler plus facilement dans le système de fichiers de l’ordinateur et l’extraction des données est facilitée par les fonctions wget, lynk et egrep. Le script en perl permet une plus grande adaptabilité lors de l’extraction des contextes (on peut choisir combien de mots on veut retenir pour les contextes). De plus, si on veut aller plus loin dans l’analyse linguistique (compter des mots, analyser les co-occurents dans les textes, les catégories grammaticales qui reviennent souvent…) le script perl est un choix intéressent.

Les Nuages De Mots et Les Graphes

Les nuages de mots et les graphes nous permettent d'analyser plus en profondeur le mot "environnement" sur le web. Dans les nuages de mots on peut se rendre de sa présence plus ou moins forte en fonction du sens et de la langue. Dans les graphes, on se rend compte de son entourage sémantique, qui change également en fonction du sens et de la langue. Des conclusions sémantiques peuvent être tirées, qui sont expliquées dans les sections respectives, Nuages De Mots et Graphes. On va comparer le contenu des contextes et des dumps pour chaque sens du mot environnement dans chaque langue, on retiendra les trois mots écrits les plus gros pour chaque nuage de mots.

Mots ressortant des contextes

Français Espagnol Portugais
Informatique 1)environnement
2)informatique
3)travail
1)ambiente
2)uso
3)informatico
1)ambiente
2)informatico
3)virtual
Linguistique 1)environnement
2)linguistique
3)participant
1)ambiente
2)articulos
3)lingüìstico
1)ambiente
2)Ambiente
3)linguìstico
Naturel 1)environnement
2)code
3)article
1)ambiente
2)Ambiente
3)Medio
1)ambiente
2)Ambiente
3)Meio
Socioculturel 1)environnement
2)Environnement
3)social
1)ambiente
2)Ambiente
3)Cultural
1)ambiente
2)AulaNet
3)Ambiente


Mots ressortant des dumps

Français Espagnol Portugais
Informatique 1)oracle
2)informatique
3)environnement
1)ambiente
2)computadoras
3)informático
1)informacão
2)dadaos
3)informática
Linguistique 1)the
2)linguistique
3)langue
1)sordos
2)niños
3)lenguaje
1)lingua
2)linguajem
3)the
Naturel 1)article
2)code
3)ainsi
1)Ambiente
2)Medio
3)Natural
1)ambiente
2)natural
3)meio
Socioculturel 1)scolaire
2)parent
3)réussite
1)pablo
2)ambiente
3)cultural
1)brincadeira
2)criança
3)desenvolvimento


On remarque que les résultats sont différents si l’on utilise les contextes (concaténations de ce qui entoure le mot environnement) et les dumps (aspiration de toutes les pages pour un sens).La représentation sous forme de nuages de mots des dumps fait souvent ressortir des mots n’ayant pas de rapport avec l’environnement (the, oracle, pablo…). Par contre, les contextes sont beaucoup plus cohérents. On observe que pour toutes les langues et tous les sens confondus, le mot environnement(ou ambiente) est toujours le plus fréquent, accompagné ensuite de son sens spécifique (informatique, informatico, ambiente, cultural…). La représentation des contextes sous forme de nuages de mots permet donc de faire ressortir rapidement le sens du mot environnement pour un contexte donné mais elle ne fait pas apparaître les relations entre les mots. Nous allons donc nous intéresser maintenant aux résultats donnés par les graphes.

Comme nous l’avons vu, on peut réaliser des graphes différents selon le résultats que l’on veut obtenir : les tree clouds représente les liens entre les 50 mots les plus fréquents d’un texte, les tag clouds représentent visuellement les 50 mots les plus fréquents, ce qui se rapproche des nuages de mots, le logiciel « le trameur » permet de représenter les cooccurrents et poly-coocurrents d’un mot, ce qui permet de voir apparaître les liens sémantiques. Enfin, la carte sémantique permet de repérer la proximité sémantique entre plusieurs mots sur le web.

Téléchargements

Fichier zippé de tous nos scripts
Fichier zippé de tous nos graphes

Pour aller plus loin

Si l’on souhaitait aller plus loin dans notre projet, on pourrait élargir notre étude à un plus grand nombre de pages web et voir si les mots les plus fréquents et les cooccurrents sont toujours les mêmes autour du mot environnement. Cela nous donnerait un aperçu de la véracité de notre petit corpus et l’on pourrait ensuite faire une comparaison et une étude statistique afin de tirer des conclusions plus approfondies sur la présence du mot environnement sur le web.