
![]()
- Présentation de mkAlign
- Documentation mkAlign
- Rapports d'utilisation de mkAlign
- Dernières mises à jour de mkAlign
- Chantiers en Cours autour de mkAlign
- Diffusion de mkAlign
- Tarifs
- Téléchargement
- Corpus Alignés au format TMX
- FAQ
- Liens
- Lectures
- Copies d'écran de mkAlign
![]()
La notion de corpus parallèle, qui émerge actuellement dans les travaux de différents chercheurs comme : corpus comportant plusieurs volets qui correspondent chacun à une version d’un même texte dans deux ou plusieurs langues différentes, renvoie à des situations connues de coexistence de textes présentant des liens forts dans leur structuration. Le traitement de corpus parallèles suppose une phase préalable d’alignement , c’est-à-dire de mise en correspondance dans chacun des volets de différents types d’unités textuelles [Zimina, 2004]. Aligner des corpus de textes originaux et de leurs traductions c’est mettre en relation des unités textuelles qui se correspondent. On peut établir des correspondances entre des unités de différents niveaux : mots, syntagmes, phrases, paragraphes, sections, etc.
Le programme mkAlign permet de construire, corriger et visualiser un alignement de deux textes via un éditeur à double entrée. Il permet d’afficher simultanément les textes source et cible pour y rajouter ou corriger des segments équivalents. Ce programme n’est pas (seulement) un aligneur automatique. Il est conçu pour aider l’utilisateur dans la création, l’alignement, la correction et la validation de textes traduits. L’utilisateur garde la maîtrise sur l’ensemble de ces processus, depuis la mise en correspondance initiale des segments équivalents jusqu’à l’export final du bi-texte produit. Il appartient à l’utilisateur de construire l’alignement et de définir son degré de précision (résolution). Cette résolution peut varier pour mettre en évidence les correspondances entre les segments textuels des différents niveaux. La notion de sauvegarde de session de travail (création de fichiers d’export/import de bi-textes au format xml et html) permet de commencer le travail sur un corpus à deux volets textuels, l’exporter au format désiré, puis le réimporter plus tard pour y apporter des modifications. La visualisation de l’alignement dans une représentation cartographique (bi-text map) offre plusieurs possibilités de gestion de corpus qui partagent des similitudes au plan traductionnel.
![]()
Serge Fleury, Masha Zimina (EA2290 SYLED/CLA2T), "mkAlign, Manuel d'utilisation" : format PDF, format HTML. Cette documentation est aussi disponible (localement) après installation du logiciel.
Démo complète (animation flash)
Démo séquentielle :
Démo 1 : Paramétrage de l'alignement (segmenteur de l'alignement, délimiteurs de formes, encodage des fichiers).
Démo 2 : Principales fonctionnalités de mkAlign (figement de cellule, fractionnement et fusion de cellules par insertion du segmenteur au clavier ou via les modes MERGE et SPLIT) (1)
Démo 3 : Principales fonctionnalités de mkAlign (figement de cellule, fractionnement et fusion de cellules par insertion du segmenteur au clavier ou via les modes MERGE et SPLIT) (2)
Démo 4 : Principales fonctionnalités de mkAlign, recherche de motifs dans l'éditeur de l'alignement
Démo 5 : les segments répétés dans mkAlign, génération, recherche de segments.
Démo 6 : Création de la carte de l'alignement. Recherche de motifs dans la carte.
Démo 7 : Carte de l'alignement. Recherche de cooccurrents d'une forme via les spécificités
Démo 8 : Carte de l'alignement. Recherche des mots spécifiques dans une sélection de sections
Démo 9 : Carte de l'alignement. Recherche des mots dans la carte. Export HTML : source avec motif, cible avec motif, bi-texte avec motif.
Démo 10 : Carte de l'alignement. Chargement de la carte en tenant compte d'une partition prédéfinie.
Démo 11 : Carte de l'alignement. Projection de formes ou de segments sur la carte.
Démo 12 : Sauvegarde d'une session de travail, réimport d'une session
![]()
Corpus Europarl (français/anglais)
Corpus Convention (français/russe)
![]()
Dernières mises à jour de mkAlign (version : 2.0b120)![]()
Repérage de la variation dans les textes par projections lexicométriques ou par comparaison sur alignement construit via mkAlign. Exemples de traitements réalisés :
- Deux traductions du discours d'investiture de B. Obama :
- Deux discours de Ségolène Royal (campagne 2007) :
- export comparaison après alignement automatique
- projection
- Deux discours de Nicolas Sarkozy (conférence de presse 2008) :
- export comparaison après alignement automatique
- projection
- Deux versions du contenu d'un fil RSS
Module de calcul des cooccurrents et des poly-cooccurrents : exemples de rapport construit
![]()
mkAlign est réalisé par l’équipe universitaire SYLED-CLA2T. Ce logiciel fait l’objet d’une diffusion commerciale. Si vous êtes un chercheur isolé, vous pouvez vous en servir momentanément, pour vos travaux personnels. Si par contre votre laboratoire, votre entreprise, peut acquérir ce logiciel, cela nous aidera à le développer. A votre demande, nous vous enverrons une facture émise par l'agent comptable de l'université Paris3, en commençant par une facture "pro forma" si vous le souhaitez (précisez à qui elle doit être adressée).
serge.fleury[at]univ-paris3.fr
![]()
Nos tarifs sont les suivants ( TTC en €)

![]()
mkAlign 2.00 , exécutable sous Win32 : http://tal.univ-paris3.fr/mkAlign/setup-mkAlign.exe.
Dernière Mise à Jour : 04/01/2010 (version : 2.0b122).
mkAlign 1.65, exécutable sous Win32 : http://tal.univ-paris3.fr/mkAlign/Mka-1.65.zip.
Dernière Mise à Jour : 07/09/2007.
Dans cette archive, mkAlign est disponible via le programme mkAlign.exe. Le dossier doc contient la documentation du programme. Le dossier corpus contient des corpus de test.
![]()
Discours d'investiture de B. Obama : version anglaise et 4 traductions en français
Discours de B. Obama le 04/06/2009 (Le Caire) : 3 langues (anglais, français, espagnol).
Discours de B. Obama le 04/06/2009 (Le Caire) : 2 langues (français, arabe).
Convention de sauvegarde des droits de l'homme et des libertés fondamentales : 3 langues.
"Corpus DH v1.1" : 2 langues (source : Corpus Droits de l'Homme, LDI, UMR 7187).
"La Divine Comédie". Partie 1 : l'Enfer : 5 langues (source : The Project Gutenberg).
![]()
![]()
Sur la page personnelle d'Olivier Kraif : une section pointant vers des ressources concernant la constitution et l'exploitation de corpus multilingues, comparables, parallèles ou alignés.
Alignator : un aligneur en ligne développé par Kim Gerdes.
Alignoscope : navigation dans une base de textes multilingues (Romain Rolland, Jean Christophe) par Kim Gerdes.
COOCS : Outils lexicométriques pour l'analyse des cooccurrences développés par William Martinez.
OPUS : an open source parallel corpus.
![]()
Fleury Serge, Zimina Maria, "Exploring Translation Corpora with mkAlign", in Translation Journal, Volume 11, n°1 January 2007.
Fleury Serge, Zimina Maria, "Utilisations de mkAlign pour la traduction philologique" (PDF), in Actes JADT 2008, Journées Internationales d'Analyse Statistiques des Données Textuelles, Lyon, 2008.
Leblanc Jean-Marc, Martinez William, "L'analyse contrastive des réseaux de cooccurrence Le monde dans les discours des présidents de la Cinquième République" (PDF), in Actes JADT 2006, Journées Internationales d'Analyse Statistiques des Données Textuelles, Besançon, 2006.
Martinez William, Zimina Maria, "Utilisation de la méthode des cooccurrences pour l'alignement des mots de textes bilingues." (PDF), in Actes JADT 2002, Journées Internationales d'Analyse Statistiques des Données Textuelles, St Malo, 2002.
Véronis Jean, Alignement de corpus multilingues (PDF), in Pierrel, J.-M., éditeur, Ingénierie des langues, Informatique et systèmes d’information, chapitre 6, pages 151–172. Hermès Sciences, 2000.
Zimina Maria, Approches quantitatives de l'extraction de ressources traductionnelles à partir de corpus parallèles. (slides) Présentation à la soutenance de thèse, Université de
Zimina Maria, L’alignement textométrique des unités lexicales à correspondances multiples dans les corpus parallèles. (PDF) Conférence aux 7es Journées internationales d'Analyse statistique des Données Textuelles JADT'2004, Louvain-la-Neuve (Belgique), 2004.
Zimina Maria, Topographie bi-textuelle et approches quantitatives de l’extraction de ressources traductionnelles à partir de corpus parallèles (PDF), in Actes des 7es Journées scientifiques du Réseau de chercheurs "Lexicologie, Terminologie, Traduction", Institut supérieur de traducteurs et interprètes (ISTI), Bruxelles, 8-10 septembre 2005.
Zimina Maria, Corpus multilingues : exploration textométrique dans l'espace intertextuel, in Ballard M., Pineira-Tresmontant C. (éd) Les corpus en linguistique et en traductologie" (p. 107-121), Artois Presses Université, 2007.
![]()
Figure 1 : Interface.
Figure 2 : Alignement.
Figure 3 : Editeur (source/cible).
Figure 4 : Carte (source/cible).
Figure 5 : Recherche/Miroir.
Figure 6 : Recherche (Intersection, Différence).
Figure 7 : Spécificités (source/cible).
Figure 8 : Bi-Concordance.
Figure 9 : Segments (source/cible).
Figure 10 : Polycooccurrents (source/cible).
Figure 11 : Ventilations (source/cible).
Figure 12 : Rapport.
2005 | CLA2T/SYLED | http://tal.univ-paris3.fr/mkAlign/ | serge.fleury[at]univ-paris3.fr | 2010 |