Accueil Corpus Script Nuages de mots Analyse Résumé

LE MONDE DES ADOLESCENTS

la vie du mot "adolescent" en russe et en français sur le Web

Nuages de mots

Les nuages de mots sont construits à l'aide d'un générateur de mots clés.
Dans un premier temps, vous pouvez découvrir les mots-clés des corpus présentés sous la forme de nuages de mots, réalisés sur le site Word-It-Out.
Dans la deuxième partie, le réseau des cooccurents du motif et du contexte réalisé sur iTrameur est présenté.
Pour construire les nuages et les réseaux, j'ai utilisé des fichiers du dump-text et du contexte concaténés.

Word-It-Out

Word-It-Out est un site qui génére les nuages de mots à partir d'un texte. Les nuages représentent les mots les plus fréquents placés aléatoirement. La fréquence des mots est montré par la couleur et la taille du mot dans le nuage. L'avantage de ce site parmi d'autres, c'est qu'il permet d'enlever les mots "indésirables" (par exemple, les mots-outils ou le lexique des blogs, comme "Répondre", "Partager", etc.)

  • Le nuage de mots du corpus du contexte français:



  • Le nuage de mots du corpus du dump-text français:



  • On peut remarquer que les mots fréquents à part le motif sont: "parents", "votre", "vous", "ans", "enfants", "nous", "son". On va comparer ces résultats avec ceux de iTrameur.

  • Le nuage de mots du corpus du contexte russe:



  • Le nuage de mots du corpus du dump-text russe:



  • Dans le corpus russe les mots fréquents sont: "почему" (pourquoi), "возраст" (âge), "жизнь" (vie), "родители" (parents), "дети" (enfants), "время" (temps). Est-ce que iTrameur va montrer les mêmes résultats?

    iTrameur

    Le iTrameur est la version en ligne du logiciel Trameur qui réalise l’analyse statistique, documentaire et automatique des textes. Il possède également des fonctionnalités d'outils de textométrie.
    Pour pouvoir utiliser iTrameur normalement, j'ai dû faire du nettoyage de corpus: j'ai enlevé toutes sortes de signes de ponctuation qui ne sont pas réconnus comme délimiteurs. Une fois que j'ai lancé l'analyse sur iTrameur, j'ai également constaté que le texte des corpus était rempli de scories html qui empêchaient la présentation adéquate des réseaux de cooccurents. J'ai donc repassé de nouveau le balai et j'ai supprimé tout ce qui ne concernait pas le texte.

  • Le réseau de cooccurents du corpus du dump-text français: ici
  • Le réseau de cooccurents du corpus du contexte français: ici

  • Le réseau de cooccurents du dump-text montre que le motif est associé avec les mots: "votre", "enfance", "adoption", "âge", "enfant", "adulte", "consommation", "puberté", "culture", "lecture", "tendance", "crise". Nous en avons donc déjà rencontré plusieurs dans les nuages de mots.
    En ce qui concerne le corpus du dump-text russe, on peut répérer les mots comme: "жизнь" (vie), "одноклассники" (camarades), "поведение" (comportement), "почему" (pourquoi), "ребенок" (enfant), "самоубийство" (suicide), "сверстники" (« les gens du même âge »), "секс" (sex), "комната" (chambre), "семья" (famille).
    A part les mots, qu'on retrouve dans le dump-text, dans l’analyse de contexte on peut trouver les mots suivants: "влюбился" (tomber amoreux), "научиться" (apprendre), "развитие" (developpement), "родители" (parents), "скандал" (scandale).


  • Le réseau de cooccurents du corpus du dump-text russe: ici
  • Le réseau de cooccurents du corpus du contexte russe: ici

  • Pour le corpus du contexte, on voit les mêmes mots mais aussi "cerveau", "prévenir", "alimentaton".