TABLEAUX
LÉGENDE DES TABLEAUX
-
N° : numéro
-
LIEN : URL
-
CODE : code http pour cette URL
1xx Information
2xx Succès
3xx Redirection
4xx Erreur du client web
5xx Erreur du serveur / du serveur d'application
-
ETAT : état de cette URL
-
P.A. : page HTML aspirée
-
ENC. INIT : encodage initial (utf-8, gb2312, etc)
-
DP INIT : texte dump en encodage initial
-
DP NET UTF8 : texte dump utf8 formatté
-
CTXT. UTF8 : contexte utf8, une ligne avant/après le motif
-
CTXT. HTML : contexte au formal HTML, généré à l'aide de minigrep
-
FQ : fréquence du motif dans le texte dump utf8 formatté
-
IND : index de lemmes du fichier contexte, par ordre de fréquence décroissante
-
NGRAM : 2gram du fichier contexte, par ordre de fréquence décroissante
-
TTR% : type/token ratio du fichier contexte, représenté en pourcentage
DERNIERE LIGNE DE CHAQUE TABLEAU
Les fichiers infra sont également prêts à télécharger par un simple clique sur leur nom.
FRANÇAIS
dp-nt : Corpus francais de textes dump formattés
ctxt : Corpus francais de contextes
fq : Fichier tabulaire de fréquence du motif pour chaque texte francais
ind-b : Index de contextes du francais sans filtrage de mots vides
ind-f : Index de contextes du francais avec filtrage de mots vides
ANGLAIS
dp-nt : Corpus anglais de textes dump formattés
ctxt : Corpus anglais de contextes
fq : Fichier tabulaire de fréquence du motif pour chaque texte anglais
ind-b : Index de contextes de l'anglais sans filtrage de mots vides
ind-f : Index de contextes de l'anglais avec filtrage de mots vides
CHINOIS
dp-nt : Corpus chinois de textes dump formattés
ctxt : Corpus chinois de contextes
fq : Fichier tabulaire de fréquence du motif pour chaque texte chinois
ind-b : Index de contextes du chinois sans filtrage de mots vides
ind-f : Index de contextes du chinois avec filtrage de mots vides