Présentation du projet

1. Choix du terme

Au début de l’année 2020, le covid-19 a commencé à se propager à Wuhan, puis dans toute Chine, et ensuite dans le monde entier. Aujourd’hui, dix mois plus tard, il y a 80 millions d’infections dans le monde, dont plus de 1,8 millions personnes décédées.

Face à l’épidémie, de nombreuses propositions ont été faite par les scientifiques pour la contenir. L’une d’entre elle est l’immunité collective. Le 13 mars 2020, Patrick Valance, conseiller scientifique en chef du gouvernement britannique, a déclaré qu’environ 60 pour cent de la population britannique aurait besoin d’être infectée par le nouveau coronavirus pour obtenir « l’immunité collective ». Cela a suscité beaucoup de controverses. Alors, quelles sont les opinions à l’égard de « l’immunité collective » sous différentes idéologies ? Pour cette analyse, nous avons choisi le chinois, le russe, l’anglais, le Français, qui représentent séparément les langues sino-tibétaine, slave, germanique et romane pour observer l’attitude des différents groupes langagiers à propos de « l’immunité collective ».

2. Les hypothèses

Notre hypothèse est que la Chine et la Russie ont des attitudes totalement négatives à l'égard de « l'immunité collective », tandis que l’Angleterre et la France y sont favorable.

3. La construction des scripts pour explorer le contenu Web

Après avoir choisi les langues-cibles et le terme, nous avons commencé à rédiger les scripts et les blogs du cours.

Nos scripts sont réalisés principalement en langage bash et en langage Python. Les deux langages ont leurs avantages et leurs inconvénients. Bash peut effectuer la tâche avec environ 100 lignes, tandis que python nécessite près d’un millier de lignes. Mais les résultats de python dépassent largement ceux de bash dans tous les aspects.

En terme d’exploration de pages web, les fonctions des deux scripts sont les mêmes :

Lire les fichiers d’urls et télécharger l’article correspondant dans les dossiers PAGES-ASPIRÉES et DUMP-TEXT sous format html et txt.

Convertir les fichiers non utf-8 en utf-8.

Segmenter les textes chinois avec le script Stanford

Compter le nombre d’occurences des mots dans différents fichiers et les enregistrer dans le dossier DUMP-TEXT au format txt.

Découvrir les contextes du motif et les enregistrer dans le dossiers CONTEXT-TEXT.

Envoyer les résultats obtenus dans des tableaux au format html.

Le script Bash ne peut produire que les fichiers texte. Le travail d’analyse des fichiers txt est effectué par un autre logiciel, Itrameur, dont nous reparlerons juste après. Cependant, le script python inclut également les étapes d’analyse.

De plus, un autre petit script est intégré à Bash : minigrep, qui est utilisé pour observer l'environnement d'apparence du motif de manière plus intuitive.

En Python, de nombreuses fonctions sont utilisées. Pour mieux les connaîtres, se référer à la partie Python

4. Analyse textométrique sous Itrameur

La dernière étape nous a permis de générer des fichiers dans le dossier DUMP et CONTEXT. Sur la base de ces fichiers, nous pouvons effectuer une analyse textométrique avec le logiciel Itrameur, développé par Mr. Serge Fleury. Pour qu’on puisse importer les fichiers dans itrameur, il nous faut d’abord fusionner séparément tous les fichiers dans DUMP et CONTEXT en un grand fichier séparé par des balises. Cette étape est implémentée par le script Concat.sh. Les détails apparaissent dans notre blog. Ensuite, nous avons importé ces deux fichiers dans itrameur pour effectuer une analyse spécifique.

Pour de plus amples détails, voir la partie Itrameur de notre site

5. Nuages de mots

Pour les nuages de mots, nous utilisons trois petits scripts de Python. Grâce aux travaux précédents, nous avons bien récéptionné les dossiers de DUMP des quatre langues. Tout d’abord, il nous faut les concaténer pour obtenir un texte comprenant tous les dossiers de DUMP. Ensuite, nous utilisons un script pour calculer le nombre de mots dans le texte concaténé. Dans le résultat du script, nous choissons manuellement les mots les plus fréquents, pour créer les nuages de mots. C’est aussi pour nous assurer que les mots sélectionnés sont utiles. Enfin, nous utilisons le site word.art (https://wordart.com/) pour créer les nuages de mots anglais et français. Mais pour les nuages de mots russes et chinois, à cause de problèmes d’affichage sur le site précédent, nous décidons de les faire avec Python.

Pour avoir plus de détails, voir la partie nuages de mots de note site