Vendredi 20 Octobre 2006 22:35:34

Projection sur un fichier au format Lexico3 d'un fichier de segments répétés issus de Lexico3, de ses hapax et des 2 fichiers d'hapax associés aux 2 parties de textes constituant l'ensemble du texte.

Mode d'emploi du programme (à lancer dans une fenêtre MSDOS ou "Invites de commandes") :
projette-segments-hapax fichier-SR fichier longueur-plancher-segment frequence-plancher-segment fichier-hapax fichier-hapax1 fichier-hapax2

Ci-dessous, les différentes versions avec le résultat de la projection. En rouge les segments et en bleu les hapax.
Ces 2 types d'unités sont aussi encapsulés dans des balises appelées respectivement SR et HAPAX.

On distingue aussi les hapax du texte n°1 (qui ne sont pas hapax du n°2), ceux du texte n°2 (qui ne sont pas hapax du n°1) et les hapax du texte complet.

FICHIER 1

§ <MOIS="200602"><JOUR="20060217"><HEURE="2006021718">
Une technologie développée conjointement par plusieurs laboratoires
de prestigieuses universités canadienne, américaine et anglaise
pourrait arriver à détourner la censure numérique qui sévit dans
plusieurs pays du monde, et notamment en Chine. Ce système est en
phase d'achèvement au Canada, et pourrait rendre rapidement un peu d'
" e-liberté " aux <HAP2>quelques</HAP2> cent-dix millions d'internautes chinois.
L'apparition d'Internet en Chine fut immédiatement accompagnée de
techniques de filtrage interdisant aux internautes l'accès à certains
mots-clés spécifiques et donc à des pans entiers du Web mondial. Le
durcissement de la position des autorités chinoises s'est accéléré
récemment, puisque Liu Jianchao, le porte-parole du ministère des
affaires étrangères chinois, a justifié l'augmentation des
restrictions dans les cybercafés à partir du 1^er mars par cette
déclaration : "Avec le développement d'Internet sont apparus des
contenus nocifs et illégaux. Le gouvernement chinois met en place
certaines mesures afin de limiter l'accès à ce contenu immoral et
nocif, particulièrement pour les jeunes".
GOOGLE MADE IN CHINA
C'est dans ce contexte que <HAP1>Google</HAP1>, après Yahoo! et Microsoft il y a
<HAP2>quelques</HAP2> mois, a lancé le 25 janvier dernier son moteur en
Chine"google.cn". Mais le géant de la recherche sur Internet n'a pu le
faire que sous certaines conditions imposées par la censure d'Etat (
Le Monde du 17 février 2006). Ce filtrage, réalisé à au moins trois
niveaux (noms de domaines entiers et adresses url retirés des listes
de résultats ou mots-clés renvoyant vers des pages "politiquement
correctes" hébergées en Chine) occulte tout ce qui ne convient pas au
gouvernement chinois. Pour bien se rendre compte de ces différences,
une page comparative des résultats de google.cn et de google.com a été
développée par l'OpenNet Initiative (ONI), une entité née d'un
partenariat entre le (1)Berkman Center for Internet & Society de
l'Université Harvard, le (2)Cambridge Security Programme de
l'Université de Cambridge et le (3)Citizen Lab de l'Université de
Toronto.
L'ONI, en étudiant les relations complexes entre Etats et réseaux,
pointe du doigt les dérives et prises de contrôle d'Internet dans
certains pays. Les mises en place de filtres et de systèmes de
surveillance sont systématiquement analysées et révélées afin
d'essayer de les combattre. Et le fer de lance dans ce combat a
désormais un nom : Psiphon.
PSIPHON SQUATTE LES FLUX FINANCIERS
Mais comment fonctionne ce système ? L'internaute chinois n'a pas
besoin d'installer quoi que ce soit. Simplement ce système de
contournement en ligne permet à l'internaute d'interroger de façon
transparente et cryptée par SSL (Secure Sockets Layers) et le port 443
(port sécurisé destiné au transit des données financières) les
serveurs "amis" d'un pays censuré. Ces serveurs amis analyseront la
demande, et renverront les réponses non censurées mais toujours de
façon cryptée et sans traces sur l'ordinateur de l'internaute. Et
comme le précise le professeur Ronald Deibert, directeur du Citizen
Lab de Toronto, le pays qui souhaite interdire l'accès à ces
informations ne pourra le faire que s'il se passe aussi des flux de
transactions financières.
Le lancement de Psiphon est imminent, et profitera non seulement aux
internautes chinois, mais également à tous ceux qui subissent une
censure sur le Web comme par exemple les internautes de Corée du <HAP1><HAP1-et-2>nord</HAP1-et-2></HAP1>,
d'Iran ou encore d'Arabie saoudite. Détail amusant mais révélateur, si
l'on interroge l'outil de comparaison de l'ONI sur le mot "psiphon",
c'est, une fois n'est pas coutume, la version chinoise de google qui
renvoie le plus de réponses
Olivier Dumons

FICHIER 2

§ <MOIS="200602"><JOUR="20060217"><HEURE="2006021719">
Une technologie développée conjointement par plusieurs laboratoires
de prestigieuses universités canadienne, américaine et anglaise
pourrait arriver à détourner la censure numérique qui sévit dans
plusieurs pays du monde, et notamment en Chine. Ce système est en
phase d'achèvement au Canada, et pourrait rendre rapidement un peu d'
" e-liberté " aux <HAP2><HAP1-et-2>quelque</HAP1-et-2></HAP2> cent dix millions d'internautes chinois.
L'apparition d'Internet en Chine fut immédiatement accompagnée de
techniques de filtrage interdisant aux internautes l'accès à certains
mots-clés spécifiques et donc à des pans entiers du Web mondial. Le
durcissement de la position des autorités chinoises s'est accéléré
récemment, puisque Liu Jianchao, le porte-parole du ministère des
affaires étrangères chinois, a justifié l'augmentation des
restrictions dans les cybercafés à partir du 1^er mars par cette
déclaration : "Avec le développement d'Internet sont apparus des
contenus nocifs et illégaux. Le gouvernement chinois met en place
certaines mesures afin de limiter l'accès à ce contenu immoral et
nocif, particulièrement pour les jeunes."
GOOGLE MADE IN CHINA
C'est dans ce contexte que <HAP1>Google</HAP1>, après Yahoo! et Microsoft il y a
<HAP2>quelques</HAP2> mois, a lancé le 25 janvier dernier son moteur en
Chine"google.cn". Mais le géant de la recherche sur Internet n'a pu le
faire que sous certaines conditions imposées par la censure d'Etat (Le
Monde du 17 février 2006). Ce filtrage, réalisé à au moins trois
niveaux (noms de domaines entiers et adresses url retirés des listes
de résultats ou mots-clés renvoyant vers des pages "politiquement
correctes" hébergées en Chine) occulte tout ce qui ne convient pas au
gouvernement chinois. Pour bien se rendre compte de ces différences,
une page comparative des résultats de google.cn et de google.com a été
développée par l'OpenNet Initiative (ONI), une entité née d'un
partenariat entre le (1)Berkman Center for Internet & Society de
l'Université Harvard, le (2)Cambridge Security Programme de
l'Université de Cambridge et le (3)Citizen Lab de l'Université de
Toronto.
L'ONI, en étudiant les relations complexes entre Etats et réseaux,
pointe du doigt les dérives et prises de contrôle d'Internet dans
certains pays. Les mises en place de filtres et de systèmes de
surveillance sont systématiquement analysées et révélées afin
d'essayer de les combattre. Et le fer de lance dans ce combat a
désormais un nom : Psiphon.
PSIPHON SQUATTE LES FLUX FINANCIERS
Mais comment fonctionne ce système ? L'internaute chinois n'a pas
besoin d'installer quoi que ce soit. Simplement ce système de
contournement en ligne permet à l'internaute d'interroger de façon
transparente et cryptée par SSL (Secure Sockets Layers) et le port 443
(port sécurisé destiné au transit des données financières) les
serveurs "amis" d'un pays censuré. Ces serveurs amis analyseront la
demande, et renverront les réponses non censurées mais toujours de
façon cryptée et sans traces sur l'ordinateur de l'internaute. Et
comme le précise le professeur Ronald Deibert, directeur du Citizen
Lab de Toronto, le pays qui souhaite interdire l'accès à ces
informations ne pourra le faire que s'il se passe aussi des flux de
transactions financières.
Le lancement de Psiphon est imminent, et profitera non seulement aux
internautes chinois, mais également à tous ceux qui subissent une
censure sur le Web comme par exemple les internautes de Corée du <HAP2><HAP1-et-2>Nord</HAP1-et-2></HAP2>,
d'Iran ou encore d'Arabie saoudite. Détail amusant mais révélateur, si
l'on interroge l'outil de comparaison de l'ONI sur le mot "psiphon",
c'est, une fois n'est pas coutume, la version chinoise de <HAP1>Google</HAP1> qui
renvoie le plus de réponses
Olivier Dumons