Corpus de travail : les volets français (179 Mo) et anglais (159 Mo) du corpus Europarl : A Multilingual Corpus for Evaluation of Machine Translation.
Paramètre lexicométrique du volet français :
Nombre des occurrences | 28 756 799 | |
Nombre des formes | 99 922 | |
Fréquence maximale | 1 471 106 | |
Nombre des hapax | 32 813 |
Paramètre lexicométrique du volet anglais :
Nombre des occurrences | 26 089 463 | |
Nombre des formes | 74 585 | |
Fréquence maximale | 1 871 796 | |
Nombre des hapax | 24 168 |
2005 | CLA2T/SYLED | http:/www.tal.univ-paris3.fr/mkAlign/ | serge.fleury[at]univ-paris3.fr | 2007 |