Cours n°1 Année 2004-2005

Dates : 05.11.2004, 19.11.2004. Lieu : INALCO.

Michel Jacobson : Ingénieur informatique au CNRS/LACITO (développement d'outils de gestion (création, diffusion, interrogation, etc.) de documents linguistique texte-son sur des langues "rares")

Ressources pour ce cours

Liens

Supports

Les systèmes de codage de caractères que l'on trouve aujourd'hui s'inspirent des anciens systèmes mis en place par les typographes (les différentes casses, leur organisation, la distinction caractère - oeil d'un caractère, etc.). L'histoire des codes caractères en informatique peut se suivre aussi à travers celle des standards et des normes qui ont été proposés : de l'ASCII à l'ISO-10646. Nous insisterons plus particulièrement sur le code Unicode qui a notament pour vocation d'être universel (tous les écritures du monde). Nous verrons un certain nombre de propriétés de ce code caractère : (1) La différence langues / écritures, (2) La différence caractères / glyphes, (3) L'algorithme d'écriture bidirectionel (BIDI), (4) Le Byte Order Mark (BOM), (5) Les décompositions-compositions canoniques et de compatibilités

TP

Objectif

Construire une page web multilingue (type définitions de dictionnaire) à partir du mot laïcité dont la définition sera présentée en anglais, arabe, chinois, japonais, etc. avec traduction en français.

Pages multilingues disponibles : pages en chinois, en anglais, en japonais et en arabe avec les pages de traduction.

Version 1 :

Version 2 ("illegal") :