Sommaire

Présentation

La notion de corpus parallèle, qui émerge actuellement dans les travaux de différents chercheurs comme : corpus comportant plusieurs volets qui correspondent chacun à une version d’un même texte dans deux ou plusieurs langues différentes, renvoie à des situations connues de coexistence de textes présentant des liens forts dans leur structuration. Le traitement de corpus parallèles suppose une phase préalable d’alignement , c’est-à-dire de mise en correspondance dans chacun des volets de différents types d’unités textuelles [Zimina, 2004]. Aligner des corpus de textes originaux et de leurs traductions c’est mettre en relation des unités textuelles qui se correspondent. On peut établir des correspondances entre des unités de différents niveaux : mots, syntagmes, phrases, paragraphes, sections, etc.

Le programme mkAlign permet de construire, corriger et visualiser un alignement de deux textes via un éditeur à double entrée. Il permet d’afficher simultanément les textes source et cible pour y rajouter ou corriger des segments équivalents. Ce programme n’est pas (seulement) un aligneur automatique. Il est conçu pour aider l’utilisateur dans la création, l’alignement, la correction et la validation de textes traduits. L’utilisateur garde la maîtrise sur l’ensemble de ces processus, depuis la mise en correspondance initiale des segments équivalents jusqu’à l’export final du bi-texte produit. Il appartient à l’utilisateur de construire l’alignement et de définir son degré de précision (résolution). Cette résolution peut varier pour mettre en évidence les correspondances entre les segments textuels des différents niveaux. La notion de sauvegarde de session de travail (création de fichiers d’export/import de bi-textes au format xml et html) permet de commencer le travail sur un corpus à deux volets textuels, l’exporter au format désiré, puis le réimporter plus tard pour y apporter des modifications. La visualisation de l’alignement dans une représentation cartographique (bi-text map) offre plusieurs possibilités de gestion de corpus qui partagent des similitudes au plan traductionnel.

Documentation


Ouvrir (pleine page)

Serge Fleury, Masha Zimina (EA2290 SYLED/CLA2T), "mkAlign, Manuel d'utilisation" : format PDF, format HTML. Cette documentation est aussi disponible (localement) après installation du logiciel.

Démo complète (animation flash)


Accès demo pleine page

Démo séquentielle :

Rapports d'utilisation de mkAlign

Corpus Europarl (français/anglais)

Corpus Convention (français/russe)

Nouveautés  Dernières mises à jour de mkAlign (version : 2.0b120)

Chantiers en cours

Repérage de la variation dans les textes par projections lexicométriques ou par comparaison sur alignement construit via mkAlign. Exemples de traitements réalisés :

Module de calcul des cooccurrents et des poly-cooccurrents : exemples de rapport construit

Diffusion de mkAlign

mkAlign est réalisé par l’équipe universitaire SYLED-CLA2T. Ce logiciel fait l’objet d’une diffusion commerciale. Si vous êtes un chercheur isolé, vous pouvez vous en servir momentanément, pour vos travaux personnels. Si par contre votre laboratoire, votre entreprise, peut acquérir ce logiciel, cela nous aidera à le développer. A votre demande, nous vous enverrons une facture émise par l'agent comptable de l'université Paris3, en commençant par une facture "pro forma" si vous le souhaitez (précisez à qui elle doit être adressée).

Contact

serge.fleury[at]univ-paris3.fr

Tarifs

Nos tarifs sont les suivants ( TTC en €) 

Téléchargement

mkAlign 2.00 , exécutable sous Win32 : http://tal.univ-paris3.fr/mkAlign/setup-mkAlign.exe.
Dernière Mise à Jour : 04/01/2010 (version : 2.0b122).

Ancienne version

mkAlign 1.65, exécutable sous Win32 : http://tal.univ-paris3.fr/mkAlign/Mka-1.65.zip.
Dernière Mise à Jour : 07/09/2007.

Dans cette archive, mkAlign est disponible via le programme mkAlign.exe. Le dossier doc contient la documentation du programme. Le dossier corpus contient des corpus de test.

Corpus alignés au format TMX

Discours d'investiture de B. Obama : version anglaise et 4 traductions en français

Discours de B. Obama le 04/06/2009 (Le Caire) : 3 langues (anglais, français, espagnol).

Discours de B. Obama le 04/06/2009 (Le Caire) : 2 langues (français, arabe).

Convention de sauvegarde des droits de l'homme et des libertés fondamentales : 3 langues.

"Corpus DH v1.1" : 2 langues (source : Corpus Droits de l'Homme, LDI, UMR 7187).

"La Divine Comédie". Partie 1 : l'Enfer : 5 langues (source : The Project Gutenberg).

FAQ

Accès aux FAQ.

Liens

Sur la page personnelle d'Olivier Kraif : une section pointant vers des ressources concernant la constitution et l'exploitation de corpus multilingues, comparables, parallèles ou alignés.

Alignator : un aligneur en ligne développé par Kim Gerdes.

Alignoscope : navigation dans une base de textes multilingues (Romain Rolland, Jean Christophe) par Kim Gerdes.

COOCS : Outils lexicométriques pour l'analyse des cooccurrences développés par William Martinez.

OPUS : an open source parallel corpus.

Lectures

Fleury Serge, Zimina Maria, "Exploring Translation Corpora with mkAlign", in Translation Journal, Volume 11, n°1 January 2007.

Fleury Serge, Zimina Maria, "Utilisations de mkAlign pour la traduction philologique" (PDF), in Actes JADT 2008, Journées Internationales d'Analyse Statistiques des Données Textuelles, Lyon, 2008.

Leblanc Jean-Marc, Martinez William, "L'analyse contrastive des réseaux de cooccurrence Le monde dans les discours des présidents de la Cinquième République" (PDF), in Actes JADT 2006, Journées Internationales d'Analyse Statistiques des Données Textuelles, Besançon, 2006.

Martinez William, Zimina Maria, "Utilisation de la méthode des cooccurrences pour l'alignement des mots de textes bilingues." (PDF), in Actes JADT 2002, Journées Internationales d'Analyse Statistiques des Données Textuelles, St Malo, 2002.

Véronis Jean, Alignement de corpus multilingues (PDF), in Pierrel, J.-M., éditeur, Ingénierie des langues, Informatique et systèmes d’information, chapitre 6, pages 151–172. Hermès Sciences, 2000.

Zimina Maria, Approches quantitatives de l'extraction de ressources traductionnelles à partir de corpus parallèles. (slides) Présentation à la soutenance de thèse, Université de la Sorbonne nouvelle - Paris 3, le 26 novembre 2004.

Zimina Maria, L’alignement textométrique des unités lexicales à correspondances multiples dans les corpus parallèles. (PDF) Conférence aux 7es Journées internationales d'Analyse statistique des Données Textuelles JADT'2004, Louvain-la-Neuve (Belgique), 2004.

Zimina Maria, Topographie bi-textuelle et approches quantitatives de l’extraction de ressources traductionnelles à partir de corpus parallèles (PDF), in Actes des 7es Journées scientifiques du Réseau de chercheurs "Lexicologie, Terminologie, Traduction", Institut supérieur de traducteurs et interprètes (ISTI), Bruxelles, 8-10 septembre 2005.

Zimina Maria, Corpus multilingues : exploration textométrique dans l'espace intertextuel, in Ballard M., Pineira-Tresmontant C. (éd) Les corpus en linguistique et en traductologie" (p. 107-121), Artois Presses Université, 2007.

Copies d'écran

Figure 1 : Interface.

Figure 2 : Alignement.

Figure 3 : Editeur (source/cible).

Figure 4 : Carte (source/cible).

Figure 5 : Recherche/Miroir.

Figure 6 : Recherche (Intersection, Différence).

Figure 7 : Spécificités (source/cible).

Figure 8 : Bi-Concordance.

Figure 9 : Segments (source/cible).

Figure 10 : Polycooccurrents (source/cible).

Figure 11 : Ventilations (source/cible).

Figure 12 : Rapport.

CLA2T/SYLED

Lexico3

TAL/P3

(pluri)TAL

page counter    Nouveautés

2005 | CLA2T/SYLED | http://tal.univ-paris3.fr/mkAlign/ | serge.fleury[at]univ-paris3.fr | 2010 |