> Accueil   > Contact   > Les Partenaires      
 
> L'Action Technolangue 

TECHNOLOGIES DE LA LANGUE
 
INTRODUCTION AU DOMAINE
MÉTHODES & TECHNIQUES
ENJEUX & LIMITES
CHIFFRES CLÉS
ÉTUDES DE CAS & VISITES D'ENTREPRISES
PANORAMA
 
ENTREPRISES
ORGANISMES DE RECHERCHE
ASSOCIATIONS & INSTITUTIONS
FORMATIONS
THÈSES
RÉFÉRENTIEL DES MÉTIERS
OUTILS & RESSOURCES
INITIATIVES NATIONALES & EUROPÉENNES
ACTUALITÉS & RENCONTRES
 
DÉPÊCHE TECHNOLANGUE
APPELS D'OFFRE & APPELS À PROPOSITION
ÉVÉNEMENTS
ACTION TECHNOLANGUE
 
PRÉSENTATION
THÈMES
PROJETS
NORMES & STANDARD
 
ENJEUX
INSTANCES
>> Technologies de la Langue >> Méthodes & Techniques
   
  Technologies du traitement de l'écrit

Ci-après sont présentées quelques technologies du traitement de l'écrit :

-  Analyse morphologique
-  Analyse morphologique dérivationnelle
-  Correction orthographique
-  Désambiguïsation
-  Entités nommées
-  Etiquetage morphosyntaxique
-  Génération Automatique de Texte
-  Lemmatisation
-  Résolution Références
-  Ressources terminologiques
-  Résumé automatique
-  Traduction automatique





-  Analyse morphologique

L'analyse morphologique s'intéresse à la formation des mots au travers des processus de flexion (marques de genre, nombre, de conjugaison…), dérivation (formation de vendeur à partir de vend) et composition. Étant donné un mot, il s'agit de déterminer quelles sont les unités minimales de sens qui le composent. Ces unités minimales de sens sont appelées morphèmes et se déclinent en termes de racine et d'affixes. Une analyse morphologique complète précise en plus la catégorie grammaticale de la racine et associe aux affixes des informations sémantiques et flexionnelles. Elle est réalisée soit en utilisant des bases lexicales existantes, soit à l'aide de véritables systèmes d'analyse, plus à même de traiter les formes non répertoriées. L'analyse morphologique est présente dans de nombreuses applications du TAL et permet de reconnaître la présence d'un même mot sous des formes de surface différentes. L'une des analyses morphologiques les plus simples mise en œuvre en recherche d'information est la racinisation. Elle consiste à regrouper des formes partageant une même racine. Ce type d'analyse « simpliste » emploie des racineurs (stemmers), qui traitent de façon identique affixes flexionnels et dérivationnels. Les algorithmes de racinisation les plus connus sont ceux de Lovins (1968) et Porter (1980). Ces divers algorithmes procèdent en deux étapes : un pas de désuffixation qui consiste à ôter aux mots des terminaisons prédéfinies les plus longues possibles, et un pas de recodage qui ajoute aux racines obtenues des terminaisons prédéfinies. Il est important de noter que les racines fournies par l'algorithme de Porter ne sont pas forcément de véritables morphèmes. En extraction de connaissance, l'analyse morphologique la plus employée est la lemmatisation (cf. fiche lemmatisation) qui permet d'associer à une forme fléchie une forme conventionnelle ainsi que de calculer les traits flexionnels. Pour certaines langues très riches morphologiquement comme le finnois, la simple analyse flexionnelle se révèle très complexe : elle a donné lieu au modèle de morphologie à 2 niveaux (Koskenniemi, 1983) et à son implémentation dans le système KIMMO (Karttunen, 1983).

Références

-  Lauri Karttunen. KIMMO : A General Morphological Processor. Linguistic Forum, 22 :163-186, 1983. Kimmo Koskenniemi. Two-Level Morphology : A General Computational Model for Word-Form Recognition and Production. PhD thesis, University of Helsinki, Finland, 1983.

-  Julie B. Lovins. Development of a Stemming Algorithm. Mechanical Translation and Computational Linguistics, 11 :22-31, 1968.

-  Martin F. Porter. An Algorithm for Suffix Stripping. Program, 14 :130-137, 1980.

Béatrice Daille et Pascale Sébillot

Haut de la page

-  Analyse morphologique dérivationnelle

La morphologie dérivationnelle est la branche de la terminologie qui s'occupe de la formation de mots nouveaux à partir de mots existants, particulièrement via l'ajout de suffixes et préfixes. Ainsi, dans vendeur, le suffixe -eur s'adjoint à la base verbale pour créer un nom. Comme dans le cadre de l'analyse flexionnelle (cf. fiche lemmatisation), l'analyse dérivationnelle peut reposer sur l'emploi d'une base lexicale. CELEX (Burnage, 1990) est ainsi une vaste base pour l'Anglais, le Néerlandais et l'Allemand, qui fournit, pour chacune de ces langues, divers lexiques dont celui des lemmes contenant, pour chaque lemme, une information dérivationnelle à travers sa structure morphologique. Par exemple, la structure de celebration est ((celebrate [V]), (ion) ([N|V.])[N]), qui indique que celebration est un nom ([N]) et que l'ajout du suffixe -ion au verbe celebrate produit ce nom. Se basant sur le cadre théorique défini par D. Corbin (1987), le projet MorTAL a été proposé pour, entre autres, pallier l'absence d'une telle ressource pour le Français. Outre l'outil DéCor qui, sans connaissances linguistiques a priori, acquiert automatiquement des liens morphologiques entre des mots dans un lexique (TLFnome) à l'aide de l'outil Unix findaffix (Dal et al., 1999) (voir également la recherche de tels liens sur le Web dans (Tanguy et al., 2002)), ce projet MorTAL a donné lieu à la réalisation de l'analyseur dérivationnel automatique du Français DériF (Hathout et al., 2002). Cet analyseur est actuellement développé pour l'analyse morphologique et sémantique des suffixes -able, -ité, -et(te), -is(er), -ifi(er), -eur, -ment, -tion, et -oir, et des préfixes dé-, in-, re-, a- et en- dans certains contextes. Fondé sur des règles linguistiques, il calcule l'arbre d'analyse d'un mot entré avec son étiquette grammaticale et détermine l'opération sémantique induite par l'affixe appliqué en dernier, ce qui lui permet de fournir une glose du mot. DériF, récursif, calcule toute la famille d'un mot construit, et gère les éventuelles ambiguïtés. Ainsi, il fournit l'analyse suivante pour introuvable : ADJ ==> [ in [ [trouver VERBE] able ADJ] ADJ] (introuvable/ADJ, trouvable/ADJ, trouver/VERBE) : "non trouvable". Les résultats de DériF, évalués pour les deux suffixes -able et -ité par exemple, sont bons (86 % de bases correctement trouvées pour un ensemble de test de 2043 mots).

Références

-  Gavin Burnage. CELEX : A Guide for Users. Center for Lexical Information, University of Nijmegen, 1990. Danielle Corbin. Morphologie dérivationnelle et structuration du lexique. Thèse de doctorat d'État, Université Paris VIII, 1987 (également Tübingen, Max Niemeyer Verlag ; 2e éd., Villeneuve d'Ascq, PUL, 1991.)

-  Georgette Dal, Nabil Hathout, Fiammetta Namer. Construire un lexique dérivationnel : théorie et réalisations. Actes de TALN'99 (Traitement Automatique des Langues Naturelles), Cargèse, France, 1999. Nabil Hathout, Fiammetta Namer, Georgette Dal. An Experimental Constructional Database : The MorTAL Project. In Many Morphologies, P. Boucher ed., Cascadilla Press, Somerville, pages 178-209, 2002.

-  Ludovic Tanguy, Nabil Hathout. Webaffix : un outil d'acquisition morphologique dérivationnelle à partir du Web. Actes de TALN'02 (Traitement Automatique des Langues Naturelles), Nancy, France, 2002.

Voir aussi


-  www.ru.nl/celex
-  www.univ-lille3.fr/silex/mortal/

Béatrice Daille et Pascale Sébillot

Haut de la page

-  Correction orthographique

Corriger les fautes d'orthographes avec un ordinateur est une idée presque aussi ancienne que l'informatique elle-même puisque les premières techniques de correction ont fait l'objet de publications au début des années 60. Corriger les fautes suppose d'abord de les détecter, la machine peut ensuite proposer des corrections.

La correction orthographique se limitant aux erreurs conduisant à des formes (« mots ») non attestées dans la langue, détecter les fautes requiert seulement de vérifier pour chaque forme d'un texte si elle est ou non présente dans un dictionnaire (ou lexique) de référence. La qualité d'un détecteur repose bien sûr sur la qualité de son dictionnaire (notamment pour les noms propres, sigles, ...) mais aussi sur la qualité de la segmentation, c'est-à-dire du découpage du texte en formes : il s'agit d'éviter de compter des fautes où il n'y en a pas comme par exemple pour les chiffres (12, IX, iv), dates (12/03/05, XVe siècle), sigles (SNCF ou S.N.C.F), mots composés, élisions (quat' vents, j'veux, ...), etc. Bien entendu le détecteur doit aussi être adapté au format interne du texte (gras, souligné, mise en forme des paragraphes, tableaux, ...), format qui est propre à chaque logiciel de traitement de texte.

Proposer des corrections est un tâche plus difficile. L'idée qui sous-tend les principales techniques consiste à associer à la forme incorrecte, grâce à un algorithme tolérant aux fautes, un ensemble de graphies (formes compatibles, correctes ou non) qui est ensuite filtré grâce à des heuristiques plus ou moins discriminantes, pour ne retenir que quelques formes qui constituent les hypothèses de correction proposées au rédacteur.

Aucune technique n'est idéale en ce domaine, et la combinaison de plusieurs techniques améliore les résultats.

Ainsi certaines fautes qui éloignent peu la forme fautive de la forme correcte (aréoport ou infractus par exemple) autorisent des techniques simples basées sur des combinaisons de lettres, tandis que d'autres requièrent des algorithmes plus sophistiqués basés sur la phonétique (ortografe, ocurance) ou sur la morphologie (bails, disez). Tout l'art en la matière est de ne pas utiliser un algorithme trop tolérant (qui produirait trop d'hypothèses, trop éloignées de la forme fautive) ni un algorithme trop discriminant (qui ignorerait la bonne correction).

Les progrès techniques (puissance de calcul autorisant la détection à la volée, capacité de stockage permettant de gros dictionnaires, y compris avec des noms propres) ainsi que les progrès des algorithmes de déctection font des correcteurs actuels des outils précieux pour les rédacteurs, souvent trop pressés pour soigner la relecture.

Damien Genthial

Haut de la page

-  Désambiguïsation

On appelle désambiguïsation lexicale l'opération qui consiste à déterminer le sens d'un mot en contexte. Par exemple, le mot barrage peut référer à un barrage hydraulique, un barrage de police, un barrage de guitare, etc. La désambiguïsation lexicale est un composant nécessaire à de nombreuses applications du traitement automatique des langues.

La plupart des mots d'une langue ont de multiples sens, qui résultent d'une évolution historique complexe, comme c'est le cas pour le mot barrage ci-dessus. Parfois, les formes sont même homographes, c'est-à-dire que leur parenté graphique résulte d'un pur accident hors de toute parenté étymologique (comme pour le mot avocat, fruit ou auxiliaire de justice).

La discrimination du sens des mots est une composante utile, voire indispensable, par exemple pour :

  • la traduction automatique : le mot grille sera traduit en anglais par des mots totalement différents (railings, gate, bar, grid, scale, schedule, etc.) selon son sens ;
  • la recherche d'informations : lors d'une recherche sur les recettes à base d'avocat, il serait intéressant de ne pas ramener les documents parlant de justice ;
  • la synthèse de la parole : le mot fils doit être phonétisé différemment dans les fils du Ciel et les fils de fer ;
  • etc.
L'automatisation de la tâche de désambiguïsation lexicale est un problème reconnu comme extrêmement difficile dès les débuts du traitement automatique des langues.

Les systèmes de désambiguïsation lexicale doivent mettre en relation les occurrences de mots en contexte avec les entrées d'un dictionnaire informatisé ou d'une base de données lexicale. Les informations qui peuvent être exploitées proviennent principalement des mots voisins du mot à désambiguïser (mot-cible). Ainsi, la présence des mots tels que eau, lac, turbine est un indice fort pour le choix du sens barrage hydraulique, tandis que celle de mots tels que poids lourds, camionneurs, etc. est un indice pour le choix de barrage routier. D'autres indices peuvent également être exploités, comme le domaine général du texte dans lequel se situe le mot-cible.

Les difficultés de la désambiguïsation lexicale sont au moins de deux ordres :

  • La liste des sens du dictionnaire qui sert de référence. En effet, les dictionnaires traditionnels sont plutôt destinés à la consultation par des humains qu'à une utilisation par des machines. Les subdivisions se sens n'y ont donc pas nécessairement le caractère systématique qui serait nécessaire pour une utilisation algorithmique.
  • Les connaissances qui permettent d'associer les mots du contexte avec le sens adéquat. A l'heure actuelle il n'existe pas de base de connaissances détaillée des relations du type eau - barrage hydraulique, etc. La constitution manuelle de telles bases serait d'ailleurs une entreprise gigantesque et sans doute hors de portée pour des décennies.
Malgré de nombreux essais depuis les années 1950, ce n'est que très récemment que des progrès significatifs ont pu être enregistrés, grâce à l'émergence de méthodes probabilistes qui permettent de pallier le manque de connaissances explicites par un apprentissage de nature statistique des coocurrences sur de très grands corpus de textes. L'inadéquation des dictionnaires reste cependant un écueil qui ne semble pas avoir de solution immédiate.

Bibliographie

-  Ide, N., & Véronis, J. (1998). Introduction to the special issue on word sense disambiguation : the state of the art. Computational Linguistics, 24(1), 1-40. [PDF]

Jean Véronis
Haut de la page

-  Entités nommées

On appelle traditionnellement « entités nommées » (de l'anglais named entity) l'ensemble des noms de personnes, d'entreprises et de lieux présents dans un texte donné. On associe souvent à ces éléments d'autres syntagmes comme les dates, les unités monétaires ou les pourcentages repérables par les mêmes techniques à base de grammaires locales.

De nombreux travaux ont porté sur l'identification des noms propres dans des textes journalistiques, notamment les Message Understanding Conferences (MUC) [MUC6, 1995] [MUC7, 1998]. L'identification des entités nommées inclut traditionnellement trois types d'expressions : les noms propres (ENAMEX), les expressions temporelles (TIMEX) et les expressions numériques (NUMEX).

La reconnaissance des entités nommées à partir de textes écrits est actuellement la tâche d'extraction d'information qui obtient les meilleures performances. Les taux combinés de précision et de rappel sont comparables à ceux des humains, avec un taux de l'ordre de 0,90 P&R sur des dépêches journalistiques. Deux grandes approches sont généralement suivies pour leur identification : une approche linguistique de surface et une approche probabiliste.

Approche linguistique

L'approche linguistique est fondée sur la description syntaxique et lexicale des syntagmes recherchés. Des règles de grammaire utilisent des marqueurs lexicaux (ex. Mr pour Mister ou Inc. pour Incorporated), des dictionnaires de noms propres et des dictionnaires de la langue générale (essentiellement pour repérer les mots inconnus) sont utilisés pour repérer et typer les syntagmes intéressants [Aberdeen et al., 1995], [Grishman et al., 1995], [Appelt et Israel, 1999].

Approche probabiliste

De son côté, l'approche probabiliste utilise un modèle de langage entraîné sur de larges corpus de textes pré-étiquetés. Cette approche est particulièrement robuste lorsque les textes sont bruités, c'est pourquoi la grande majorité des systèmes dédiés à l'oral adopte une telle approche (ex. [Kubala et al., 1999]). Plus récemment sont apparues des approches hybrides tirant parti des avantages respectifs des méthodes linguistique et probabiliste. Dans les systèmes de ce type, un ensemble de règles est généralement appris automatiquement puis révisé par un expert [Aberdeen et al., 1995]. L'approche inverse a aussi été testée : un ensemble de règles de base est élaboré par un expert puis étendu (semi-) automatiquement par un moteur d'inférence qui permet d'obtenir progressivement une meilleure couverture du corpus [Cucchiarelli et Velardi, 2001].

Références

-  [Aberdeen et al., 1995] Aberdeen J., Burger J., Day D., Hirschman L., Robinson P. et Vilain M. - « MITRE : Description of the Alembic System as Used for MUC-6 ». In Proceedings of the 6th Message Understanding Conference (MUC-6), Morgan Kaufmann, San Francisco, 1995, pp. 141-155.

-  [Appelt et Israel, 1999] Appelt D. et Israel D. - « Introduction to information extraction technology ». Tutorial of the International Joint Conference on Artificial Intelligence (IJCAI'99), Stockholm, 1999 (disponible à l'adresse suivante : www.ai.sri.com/ appelt/tutorial/ ).

-  [Cucchiarelli et Velardi 2001] Cucchiarelli A. et Velardi P. - « Unsupervised named entity recognition using syntactic and semantic contextual evidence ». Computational Linguistics, n°27 (1), 2001, pp. 123-131.

-  [Grishman, 1995] Grishman R. - « The NYU system for MUC-6 or where's the syntax ? ». In Proceedings of the 6th Message Understanding Conference (MUC-6), Morgan Kaufmann, San Francisco, 1995, pp. 167-176.

-  [Kubala et al., 1999] Kubala F., Schwartz R., Stone R. et Weischedel R. - « Named Entity Extraction from Speech ». In Proceedings of the DARPA Broadcast News Workshop, Herndon, 1999, pp. 287-292.

-  [MUC-6, 1995] MUC-6 - Proceedings Sixth Message Understanding Conference (DARPA), Morgan Kaufmann Publishers, San Francisco, 1995.

-  [MUC-7, 1998] MUC-7 - Proceedings Seventh Message Understanding Conference. (disponible à l'adresse suivante : www.muc.saic.com, 1998.

Thierry Poibeau
Haut de la page

-  Etiquetage Morphosyntaxique

Objet

Effectuer l'étiquetage morphosyntaxique d'un texte (Part-of-Speech tagging ou POS tagging en anglais), consiste à identifier pour chaque mot sa classe morphosyntaxique à partir de son contexte et de connaissances lexicales (la base MORPHALOU de l'ATILF est un bon exemple de ressource lexicale très complète).

Voici un exemple de texte étiqueté avec le jeu d'étiquettes utilisé dans la campagne d'évaluation des analyseurs morphosyntaxiques du français GRACE :

Mot Étiquette
morphosyntaxique
Signification
Nous Pp1mpn- pronom personnel 1-ère personne masculin pluriel nominatif
avons Vaip1p- verbe auxiliaire indicatif présent 1-ère personne pluriel
tout Pi-ms-- pronom indéfini masculin singulier
rétréci Vmps-sm verbe principal participe passé singulier masculin
de Sp préposition
nos Ds1mpp- déterminant possessif 1-ère personne masculin pluriel (possesseur) pluriel (possédé)
jours Ncmp nom commun masculin pluriel
. F ponctuation

Le jeu d'étiquettes regroupe toutes les étiquettes utilisées pour représenter les différentes classes de mots.

Idéalement, un jeu d'étiquette doit permettre :

  1. de représenter la richesse des informations lexicales,
  2. de représenter l'information nécessaire à la désambiguïsation en contexte des étiquettes morphosyntaxiques,
  3. et d'encoder les informations utiles au traitement linguistique pour lequel l'étiquetage morphosyntaxique a été déployé.
La taille d'un jeu d'étiquettes varie en fonction de la finesse des informations linguistiques représentées (delicacy en anglais). Elle varie de quelques dizaines à quelques centaines d'étiquettes (par ex. 312 pour le jeu GRACE. Cette taille dépend à la fois de la langue traitée (certaines langues dont la morphologie est très riche nécessitent plus d'étiquettes, d'autres moins, par exemple le jeu d'étiquettes utilisé par dans le corpus annoté américain PennTreebank n'en compte que 36) et de choix stratégiques concernant l'étiqueteur (information requise dans l'étiquetage, performance de l'étiqueteur), a priori, moins il y a d'étiquettes parmi lesquelles il faut choisir, plus la tâche d'étiquetage est facile.

L'étiquetage morphosyntaxique peut être vue comme la composition de 3 fonctions :

  1. la segmentation du flux de caractères en mots,
  2. l'étiquetage a priori (hors-contexte) des mots au moyen des informations lexicales (qui associe toutes les étiquettes possibles pour un mot donné),
  3. la sélection en fonction du contexte du mot, de l'étiquette la plus pertinente parmi celles identifiées par l'étiquetage a priori.

Méthodes

Les méthodes à base de règles sans apprentissage ont été les premières employées pour construire des étiqueteurs. Dans ces systèmes, les règles de cooccurrences des mots et des étiquettes, qui définissent l'appartenance d'une occurrence à une classe de mots, sont fournies par un linguiste. Puis très vite ces méthodes ont été supplantées par des méthodes à base d'apprentissage à partir d'un corpus annoté à la main, essentiellement pour des raison de coût de développement. Certaines méthodes à apprentissage se contentent même d'un corpus dépourvu d'annotations morphosyntaxiques. Parmi les méthodes à apprentissage, on distingue les méthodes à base de règles et les méthodes probabilistes, qui constituent les deux grandes classes de systèmes, des autres méthodes au caractère plus anecdotique, comme par exemple, les méthodes à base de neurones artificiels, de combinaison de systèmes ou encore d'algorithmes génétiques. Il existe actuellement un large éventail de logiciels libres ou commerciaux d'étiquetage morphosyntaxique, ceci pour les langues les plus fréquemment rencontrées. Les systèmes multilingues, offrant une qualité d'étiquetage comparable avec un même formalisme pour plusieurs langues sont en revanche très rares.

Performances

L'étiquetage morphosyntaxique a la réputation d'être la tâche d'analyse linguistique automatique la plus facile à réaliser, puisque le niveau de performance atteint par les systèmes est comparable à celui des humains en terme de qualité d'étiquetage, avec l'avantage que les systèmes offrent une vitesse d'annotation sans commune mesure avec celle d'un humain, qui ne peut annoter au mieux que quelques milliers de mots à l'heure. Ceci est du au fait que la plupart des phénomènes linguistiques complexes, qui sont hors de portée de la technologie d'analyse du langage actuelle, ont des fréquences d'apparition relativement rares par rapport à celles des phénomènes de base. Le niveau de performance, en apparence élevé, souvent affiché par les étiqueteurs morphosyntaxiques et en fait un peu trompeur, car il est du, pour une bonne part, au nombre prépondérant de mots non ambigus présents dans la langue naturelle. Par exemple, si l'on regarde les résultats d'un des systèmes ayant eu de très bonnes performances dans la campagne d'évaluation GRACE, en s'intéressant au taux d'erreur par étiquette plutôt qu'au taux d'erreur global, on s'aperçoit que le taux d'erreur n'est que de 0.03 % (4 erreurs sur 13246 occurrences) pour les ponctuations, tandis qu'il monte à 7 % (1449 erreurs sur 20491 occurrences) pour la catégorie des noms. Avec une stratégie d'étiquetage très simple, il est facile de prédire correctement l'étiquette morphosyntaxique de 90 % des mots d'un texte. Notez cependant, que pour des phrases de 15 mots en moyenne, un taux d'étiquetage correct 96 % au niveau des mots, ne se traduira paradoxalement que par un taux d'étiquetage correct de 54 % au niveau des phrases (presque une phrase sur deux contiendra au moins une erreur d'étiquetage).

Utilisation

L'étiquetage morphosyntaxique est utilisé avec succès dans des tâches de traitement du langage comme :

  • la lemmatisation,
  • l'analyse syntaxique, où il constitue très souvent une phase amont de l'analyse syntaxique,
  • la synthèse vocale (où il sert à désambiguïser les homographes comme « couvent » en distinguant le verbe du nom),
  • l'extraction terminologique

Le bon niveau de performance atteint par la technologie et le grand nombre de systèmes de qualité disponibles, aussi bien en tant que logiciel libre que comme logiciel commercial, font de l'étiquetage morphosyntaxique une des technologies de traitement du langage naturel la plus facilement utilisable dans un système de traitement de l'information.

Bibliographie

Voici trois points d'entrée dans la littérature sur les étiqueteurs morphosyntaxiques :

-  Patrick Paroubek, « Chapitre 4 Analyse Morpho-syntaxique et syntaxique », dans l'ouvrage « L'évaluation des systèmes de traitement de l'information », sous la direction de Stéphane Chaudiron, Collection « Information Commande Communication », aux Editions Hermes-Sciences, Lavoisier, ISBN 2-7462-0862-8, juin 2004, pp 101-125.
-  Patrick Paroubek, Martin Rajman, « Chapitre 5 : Etiquettage morphosyntaxique » (www.limsi.fr/Individu/pap/il.hermes.book.html), dans « Ingenierie des Langues », sous la direction de Jean-Marie Pierrel, Collection « Information Commande Communication », aux Editions Hermes Science ISBN 2-7462-0113-5, october 2000 pp 131-148.
-  H. van Halteren (éditeur), Syntactic Wordclass Tagging, Kluwer Academic Publishers, 1999.

Régulièrement des articles sur des aspects spécifiques du problème de l'étiquetage morphosyntaxique sont publiés dans les conférences sur le traitement automatique des langues comme TALN, LREC, EACL, ACL, COLING, etc.

Patrick Paroubek

Haut de la page

-  Génération Automatique de Texte

La façon la plus simple pour un ordinateur de transmettre les résultats de ses calculs consiste à les présenter sous forme de tableaux numériques. Or, de plus en plus, on utilise l'ordinateur pour des tâches non numériques. Il est donc indispensable que ses résultats soient présentés dans la langue de l'usager. D'où les besoins croissants en « Génération Automatique de Texte » (GAT).

À l'instar d'un être humain racontant une histoire, la machine doit d'abord décider « Quoi dire ? », c'est-à-dire déterminer les informations pertinentes à raconter. Ensuite, elle doit décider « Comment le dire ? », c'est-à-dire choisir la structuration du texte en phrases et choisir les mots.

Pour illustrer cette articulation en deux modules, regardons comment fonctionne un système de GAT conçu pour donner des commentaires sur des tableaux de statistiques économiques. Un ordinateur n'incluant pas de système de GAT se contenterait de présenter les tableaux de chiffres. Mais on peut avoir envie d'une interprétation de ces chiffres, par exemple pour souligner les fortes hausses/baisses ou les stagnations durables. Cette étape correspond au « module Quoi dire ? » du système de GAT. Les paramètres à prendre en compte sont le type d'auditoire, ses connaissances et ses attentes. Cette tâche, qui repose sur des connaissances statiques et dynamiques (inférentielles) du domaine d'application, est indépendante de la langue. Le résultat de ce module est un ensemble d'informations, généralement ordonnées, représentées dans un langage machine. Il reste à « traduire » ces informations en un texte rédigé dans un style soutenu. Cette étape qui correspond au « module Comment le dire ? » est fortement dépendante de la langue. On doit découper les informations en sous-blocs correspondant à des phrases, ordonner et enchaîner ces phrases, trouver les bons mots et enfin respecter les règles de grammaire de la langue cible.

En pratique, les systèmes de GAT réalisés n'intègrent pas toujours les deux modules de façon aussi explicite. Il peut arriver que la tâche du module Quoi dire ? soit établie au préalable par le concepteur du système qui fait remplir un formulaire (via un menu déroulant) par l'usager. Il peut aussi arriver que la tâche du module « Comment le dire ? » soit aussi déjà décidée et que le système se contente d'assigner des valeurs à des variables (par exemple, lettre de banque annonçant un déficit chiffré).

La GAT permet donc la transformation d'informations représentées en langage machine vers un texte écrit et elle garantit la fidélité de la transformation, et ce, dans plusieurs langues. C'est pourquoi la GAT peut être vue comme une alternative à la Traduction Automatique. Signalons, que les systèmes de Traduction Automatique comportent une tâche de génération, équivalente à Comment le dire ? ou à des sous-tâches de ce module, mais qu'ils ne comportent pas de module Quoi dire ? car le texte traduit est censé véhiculer les mêmes informations que le texte source. Ajoutons qu'un système de dialogue Homme-Machine comporte aussi un module de GAT qui produit les réponses de la machine.

La génération future des systèmes de GAT tend à intégrer diverses modalités de communication : au lieu de produire un simple texte, la machine peut produire des graphiques, des images, des sons en plus de liens hypertextes.

Quelques points de comparaison avec l'analyse automatique. Contrairement à l'analyse qui a un point de départ bien défini (la phrase ou texte à analyser), le point de départ d'un système de GAT est moins bien défini. Si certaines problématiques sont communes à l'analyse et la génération (par exemple, formaliser les règles de la syntaxe et les respecter), d'autres sont propres à l'une ou l'autre des démarches. La maîtrise des processus impliqués en génération ouvre la voie vers une meilleure compréhension de la pensée humaine.

Laurence Danlos et Guy Lapalme

Haut de la page

-  Lemmatisation

La lemmatisation ou étiquetage morphologique consiste à assigner à chaque mot d'un texte son lemme, éventuellement associé à des informations flexionnelles. Un lemme est une forme lexicale existante choisie par convention au sein d'un paradigme flexionnel. Ainsi pour le Français, le lemme d'un nom correspond à la forme au singulier, celui d'un adjectif à la forme masculin singulier et celui d'un verbe à l'infinitif. La lemmatisation s'effectue en examinant le mot seul, ou à partir du mot accompagné de sa catégorie grammaticale. Un programme utilisant le mot et son étiquette peut être vu comme un sous-produit immédiat de l'étiquetage morphosyntaxique (cf. fiche sur cette technologie) puisqu'un lemme correspond à une forme fléchie unique dès que sa catégorie grammaticale est connue, sauf pour un nombre fini d'exceptions. Un exemple d'exception est la forme fléchie fils qui peut correspondre à deux lemmes différents, fil et fils. Il existe deux types principaux de lemmatiseurs : ceux utilisant une base de données lexicales et ceux utilisant un analyseur morphologique. Un exemple de base lexicale est celle élaborée au sein du projet MULTEXT (Amstrong 1996) pour quatre langues de la communauté européenne : Français, Italien, Espagnol et Anglais, qui épouse les recommandations de EAGLES pour les dictionnaires électroniques. Les programmes de lemmatisation effectuant une analyse morphologique s'appuient sur des règles morphologiques pour générer le lemme du mot et calculer ses informations flexionnelles. Ils n'utilisent qu'un dictionnaire réduit ne comportant que les exceptions à ces règles. Un exemple de lemmatiseur à base de règles pour le Français s'appuyant sur un texte déjà étiqueté grammaticalement est FLEMM (Namer, 2000). Les analyseurs à base de règles ont l'avantage de pouvoir traiter les néologismes à comportement flexionnel régulier mais ils sont aussi susceptibles de commettre des erreurs. Le taux d'erreur est néanmoins minime : moins de 2 % si le mot a été correctement étiqueté grammaticalement.

Références

-  Susan Armstrong. MULTEXT : Multilingual Text Tools and Corpora, Lexikon und Text, Tübingen : Niemeyer, H. Feldweg and W. Hinrichs eds., pages 107-119, 1996.

-  Fiammetta Namer. FLEMM : Un analyseur flexionnel du Français à base de règles, TAL, 41(2) :523-548, 2000.

Voir aussi

-  MULTEXT
-  Flemm

Béatrice Daille et Pascale Sébillot

Haut de la page

-  Ressources terminologiques

La construction de ressouces terminologiques

Suite à l'utilisation généralisée des outils de bureautique, à l'internationalisation des échanges et au développement d'Internet, la production de documents sous forme électronique s'accélère sans cesse. Or pour produire, diffuser, rechercher, exploiter et traduire ces documents, les outils de gestion de l'information ont besoin de ressources terminologiques. La gamme des produits à base terminologique nécessaires pour répondre à ces besoins s'élargit considérablement. A côté des bases de données terminologiques multilingues classiques pour l'aide à la traduction, on voit apparaître de nouveaux types de ressources terminologiques adaptées aux nouvelles applications de la terminologie : thesaurus pour les systèmes d'indexation automatique, index hypertextuels structurés pour la navigation dans les documentations techniques électroniques ou sur les sites Web, référentiels terminologiques pour les systèmes de gestion de données techniques, ontologies pour le Web sémantique, pour les mémoires d'entreprise ou pour les systèmes d'extraction d'information, etc.

Pour mettre en place, ou rendre plus performante, une application de gestion de l'information dans une entreprise ou dans une institution, les ressources terminologiques nécessaires pour garantir l'efficacité du système sont rarement déjà disponibles sous la forme adéquate. Se posent alors les problèmes de leur construction et de leur mise à jour, ainsi que de leur recyclage si elles existent déjà sous des formes inappropriées. Il s'avère d'emblée que le gisement essentiel pour l'acquisition de ressources terminologiques est constitué par des documents textuels, que ce soit, selon les contextes, des documents techniques, des articles scientifiques, des compte rendus d'entretiens avec des experts, des contenus de site Web, ... Il faut donc disposer d'outils informatiques d'analyse de textes pour la construction de ressources terminologiques.

Dans les années 90, cette pression des applicationsa rencontré un contexte favorable du côté des recherches en Traitement Automatique des Langues : d'une part, les travaux en analyse statistique de la langue ont connu un renouveau certain, et, d'autre part, on a conçu des analyseurs à grande échelle qu'ils soient partiels, c'est-à-dire ne traitant qu'une partie des textes, ou peu profonds, c'est-à-dire ne fournissant que des informations incomplètes sur les données traitées. C'est de la rencontre entre ces besoins importants en milieu industriel et les recherches menées en traitement de corpus textuels que s'est constituée la problématique de recherche sur l'acquisition de ressources terminologiques à partir de textes.

On peut classer les outils de TAL d'aide à construction de ressources terminologiques à partir de textes en deux grandes catégories : les outils d'extraction de termes et les outils de structuration de termes.

Extraction de termes

Une première classe regroupe les outils dont la visée est l'extraction à partir du corpus analysé de \'\'\'candidats termes\'\'\', c'est-à-dire de mots ou groupes de mots susceptibles d'être retenus comme termes par l'analyste en charge de la construction de la ressource terminologique. Les méthodes les plus précises sont basées sur une analyse morphosyntaxique des textes : reconnaissance des catégories grammaticales des mots (nom, verbe, adjectif, …), et identification de groupes syntaxiques (groupes nominaux, verbaux, adjectivaux, …). Par exemple, à partir d'un corpus dans le domaine médical, un système d'extraction de termes identifiera les candidats termes \'\'réanimation chirurgicale\'\' ou \'\'scanner thoracique\'\', qui sont des groupes nominaux, constitués d'un nom et d'un adjectif, et les candidats termes \'\'pratiquer un scanner\'\' ou \'\'réaliser une échographie\'\', qui sont des groupes verbaux, constitués d'un verbe et d'un complément d'objet. A chaque terme extrait peuvent être associées des informations numériques, comme sa fréquence, le nombre de termes différents dont il est constituant, etc. L'organisation des termes complexes extraits sous la forme de listes de termes partageant un même élément pivot constitue un aide particulièrement utile pour la structuration terminologique d'un domaine (par exemple : \'\'échographie abdominale\'\', \'\'échographie hépatique\'\', \'\'échographie thoracique\'\', ou \'\'effectuer une écographie\'\', \'\'pratiquer une écographie\'\', \'\'réaliser une écographie\'\').

Structuration de termes

La gamme des outils d'aide à la structuration de terminologie est large. L'objectif est de rapprocher des termes qui peuvent avoir une proximité conceptuelle forte. Les méthodes statistiques de cooccurrence, développées dans le domaine de la recherche d'information, sont les plus connues et les plus anciennes : elles rapprochent des termes qui apparaissent fréquemment dans les mêmes documents ou paragraphes ou phrases. Les méthodes d'analyse distributionnelle construisent des classes de termes qui se retrouvent régulièrement dans les mêmes contextes syntaxiques. Par exemple, toujours à partir d'un corpus dans le domaine médical, un outil d'analyse distributionnelle rapprochera les termes échographie, radiographie et scanner, car chacun fonctionne comme sujet des verbes montrer et confirmer et complément d'objet des verbes effectuer et réaliser. Le repérage de la position syntaxique se fait grâce à l'exploitation d'analyseurs syntaxiques à large couverture.

Les outils de repérage de patrons de relations détectent en corpus des mots ou contextes syntaxiques répertoriés comme susceptibles de marquer telle ou telle relation entre deux éléments. Par exemple, le verbe révéler est le marqueur d'une relation entre un « type d'examen » et un « type de lésion ».

Bibliographie

-  Bourigault D. & Jacquemin C., Construction de ressources terminologiques, in J.-M. Pierrel (éd.), /Industrie des langues/, Hermès, Paris, 2000, pp. 215-233

-  Bourigault D. & Aussenac-Gilles N., Construction d'ontologies à partir de textes, in Actes de la 10ème conférence sur le Traitement Automatique des Langues (TALN 2003), Batz-sur-Mer, 11-14 juin 2003

-  www.sciences.univ-nantes.fr /info/recherche/taln2003/articles/tut3.pdf

Thierry Hamon

Haut de la page

-  Résolution Réferences

La résolution des références et des anaphores

Résoudre la référence est une étape cruciale dans la compréhension profonde de textes ou de dialogues. La tâche revient à établir un lien entre des unités linguistiques appelées expressions référentielles et les entités extralinguistiques évoquées, appelées référents. Généralement, on considère comme expressions référentielles certains groupes nominaux, éventuellement modifiés (le bouton, le bouton rouge, l'autre bouton, le bouton qui clignote, ce bouton) et certains pronoms (il, celui-ci, le sien). Il s'agit alors d'identifier, dans le contexte au sens large (environnement immédiat, mémoire des locuteurs), le ou les objets dont il est prédiqué quelque chose, soit pour exercer une action sur eux, soit pour augmenter la base de connaissance à leur sujet.Les tâches-clé d'un système de résolution automatique de la référence sont donc la détection des expressions potentiellement référentielles, la gestion dynamique d'une base de référents potentiels et la mise en correspondance des expressions avec les référents.

La détection des expressions potentiellement référentielles est le plus souvent effectuée à partir de la sortie d'un analyseur syntaxique. Les difficultés majeures à ce stade proviennent du caractère non systématique de l'appariement des syntagmes nominaux avec des expressions référentielles : des groupes nominaux quantifiés ou sous la portée d'une négation, des pronoms explétifs ou des noms propres, par exemple, ne sont pas des expressions référentielles.

La gestion dynamique d'une base de référents potentiels repose généralement sur un modèle du contexte, permettant d'introduire, de mettre à jour et de supprimer des représentations identifiantes pour les objets dont il est question. Selon les fondements théoriques sous-jacents, il peut s'agir d'un modèle d'inspiration logique (dans la tradition de la sémantique dynamique) ou cognitif (dans la tradition des grammaires de construction). Les premiers mettent l'accent sur l'aspect opératoire, quelquefois au détriment de la finesse linguistique de la modélisation ; les seconds fournissent des cadres de description plus ouverts, mais supposent en général l'existence de ressources ontologiques à large couverture avant d'être véritablement opérationnels. Dans tous les cas, les difficultés de la modélisation du contexte sont dues à l'intégration dynamique, dans un même cadre formel, de connaissances d'origines diverses : connaissances linguistiques, perception, connaissances encyclopédiques, mémoire à court terme.

La résolution de la référence proprement dite consiste à identifier dans le modèle contextuel la et les représentation(s) évoquée(s) par l'expression référentielle en cours de résolution. Cette recherche est guidée par plusieurs indicateurs :la détermination de l'expression en question (indéfinie, définie, démonstratives, pronominale),lasémantiquede sa tête et de ses modifieurs éventuels, mais aussi la disponibilité et l'accessibilité des entités disponibles dans le modèle contextuel. A ce stade, les enjeux majeurs sont la prise en compte de connaissances lexicales ou encyclopédique nécessaires à certaines inférences (accéder par exemple de la représentation pour un tableau de bord à celle d'un bouton particulier) et le traitement des ambiguïtés (choisir une représentation, lorsque plusieurs remplissent les critères de recherche, par exemple pour un pronom il).

D'un point de vue informatique, la performance, la robustesse et la portabilité d'un système complet pour la résolution de la référence reposent crucialement sur la qualité des composants en amont (analyse syntaxique et sémantique) et la disponibilité des ressources lexicales et encyclopédiques. En l'absence de ces pré-requis, les systèmes existants restreignent généralement leur ambitions en fonction de l'application cible. Les limitations peuvent porter sur le traitement de certaines expressions seulement (pronoms personnels pour l'extraction d'information, entités nommées dans des tâches de réservation), sur le traitement d'un domaine limité (réservation de billets d'avion), sur une simplification des mécanismes de résolution (traitement similaire pour les descriptions définies et les pronoms) et/ou sur un déplacement de la résolution de la référence proprement dite vers la résolution des anaphores (appariement d'une expression référentielle non pas avec une entité extralinguistique, mais avec une autre expression appelée « l'antécédent »). Ces limitations tracent en même temps les enjeux pour la recherche des années à venir : articuler des modélisations reposant véritablement sur la connaissance fine des mécanismes linguistiques et cognitifs sous-jacents à la référence avec l'optimisation de l'accès à des ressources linguistiques de bonne qualité et à large couverture.

Pistes bibliographiques

-  pour une approche logique de la référence :

Kamp H. and Reyle U. (1993). From Discourse to Logic. Kluwer Academic Publishers. Dordrecht, Boston, London. 713 p.

-  pour une approche cognitive de la référence :

Alshawi H. (1987). Memory and Context for Language Interpretation. Cambridge University Press, Cambridge.

-  pour une approche linguistique de la référence :

Corblin F. (1987). Indéfini, Défini et Démonstratif. Droz, Genève.

-  pour un opérationalisation de l'approche linguistique :

Salmon-Alt S. (2001). Référence et Dialogue finalisé : de la linguistique à un modèle opérationnel. Ph.D. Thesis, Université H. Poincaré, Nancy, France.

-  pour une implémentation de l'approche cognitive :

Pitel G. (2004). La notion de construction située pour un modèle d'interprétation et de résolution de la référence pour le dialogue finalisé. Ph.D. Thesis, Université Paris-XI.

-  pour un état de l'art sur la résolution des anaphores :

Mitkov R. (2002). Anaphora Resolution. Studies in Language and Linguistics. Longman, London.

Susanne Salmon-Alt

Haut de la page

-  Résumé Automatique

Introduction

Les grandes entreprises, les grandes administrations, les laboratoires et les services de développement sont confrontés à un défi : gérer la masse des documents textuels saisis sur des supports électroniques. Comment les classer ? Comment les stocker pour y retrouver rapidement les informations qu'ils contiennent ? Comment diffuser ces informations à ceux qui sauront les utiliser ? Comment filtrer une information pertinente parmi toutes les informations contenues dans les documents stockés ? Ces tâches sont d'autant plus complexes que ce qui est jugé pertinent pour l'un ne l'est pas nécessairement pour l'autre. Dans ce contexte, il est intéressant produire un résumé du texte qui permette au lecteur de décider rapidement si il est intéressant de lire le texte source.

Mais dans ce cas, pourquoi ne pas se contenter d'un résumé rédigé par un résumeur professionnel ? D'abord parce que tous les textes ne sont pas systématiquement accompagnés d'un résumé, notamment les textes qui circulent sur le réseau Internet, et surtout parce que le coût de production d'un résumé par un résumeur professionnel est très élevé et que la productivité de ce même professionnel est faible. À titre d'exemple, pour un texte source d'une dizaine de pages, un résumeur professionnel, lorsqu'il est spécialiste du domaine, produit un résumé en une dizaine de minutes, mais il lui faut presque une heure lorsque le domaine traité ne relève pas de sa compétence.

Ensuite, parce que les travaux menés en collaboration avec les résumeurs professionnels ont montré la difficulté à réaliser des résumés standards, c'est-à-dire construits sans tenir compte des besoins des utilisateurs. En effet, il n'existe pas de critères précis pour déterminer ce que serait un « bon résumé » ou un « résumé idéal ». Une information n'est pas importante en soi, mais doit correspondre aux besoins d'un utilisateur. Les résumés dépendent également des types de texte. On ne résume pas de la même façon un texte narratif, un article scientifique relatif à une science expérimentale, un article d'une science théorique ou d'un domaine spéculatif, des articles juridiques, etc. Il n'y a donc pas de résumé idéal qui serait indépendant des demandes des utilisateurs et des types de texte. C'est pourquoi ces dernières années les recherches se sont orientés vers la production de résumé dynamique.

Qu'il s'agisse de produire un résumé statique ou dynamique, il convient toujours de repérer dans un texte les éléments saillants. Pour ce faire, un certain nombre de méthodes ont été proposées ces dernières années. Ces méthodes peuvent être classées en deux groupes : les approches par compréhension et les approches par extraction.

Les méthodes fondées sur la compréhension

Un large courant de recherches a pris ses racines dans l'étude de la compréhension automatique en s'inspirant des méthodes de l'Intelligence Artificielle. L'activité résumante a alors été considérée comme résultant d'une nécessaire compréhension du texte source, et est devenue ainsi un terrain d'expérimentation pratique qui permettait de tester des modèles de compréhension et de représentation des connaissances. Ainsi, résumer un texte se décomposait en trois étapes importantes. La première étape vise à construire une représentation du texte à traiter. Cette représentation du texte est le résultat d'une analyse syntaxique ou bien encore est constituée d'un ensemble de propositions qui sont annotées par des rôles casuels. La forme de cette représentation varie selon les approches. Il peut s'agir d'une représentation causale des événements, ou d'un graphe construit à partir de la séquence ordonnée des propositions. La représentation du texte ainsi construite devient alors l'entrée d'un module qui va procèder à sa réduction au moyen d'une série d'opérations. Pour chacun de ces modèles, ces opérations de condensation se fondent sur des hypothèses concernant l'importance des parties de la représentation retenues pour le résumé final. Le résultat obtenu à l'issue de cette étape est une représentation réduite aux parties les plus importantes de la représentation du texte initial. L'étape suivante consiste à engendrer un texte à partir de la représentation résultante. Ce texte est considéré comme le résumé du texte initial.

Ce type d'approche, très en vogue dans les années 80, reste très lié à un domaine particulier, ce qui nécessite la construction de représentations et une possibilité effective de faire appel à des connaissances relatives aux domaines traités. Construire une représentation sémantique d'un texte est un travail qui exige un développement de modèles conceptuels, de faire appel à des ressources linguistiques et à des outils informatiques qui, même si certains d'entre eux sont disponibles dans des laboratoires de recherche, n'ont pas encore atteint le stade d'une industrialisation.

Les méthodes par extraction

Face aux limites des méthodes par compréhension un autre courant de recherche, que nous désignons sous le terme de méthodes par extraction a entrepris de contourner les difficultés précédentes en évitant tout processus de construction de représentations et de génération de textes. Ces méthodes par extraction mobilisent des ressources linguistiques beaucoup plus légères, ce qui leur permet de traiter, avec une certaine efficacité opérationnelle, des textes longs, de différents domaines et avec des temps de traitement acceptables. Toutes ces méthodes partagent un certain nombre de caractéristiques.

Tout d'abord, elles sont fondées sur l'hypothèse qu'il existe, dans tout texte, des unités textuelles saillantes. Les unités textuelles considérées sont en général la phrase, ou un ensemble de phrases liées entre elles par des liaisons discursives, ou encore le paragraphe ;

Deuxièmement, elles utilisent un algorithme de sélection fondé sur des connaissances statistiques, linguistiques, ou sur des heuristiques combinant différents types de connaissances, qui consiste à extraire du texte source une liste ordonnée d'unités textuelles. Les méthodes numériques calculent un score pour chaque unité textuelle, en général la phrase, puis conservent les unités dont le score est supérieur à un certain seuil. Le score le plus couramment utilisé est une fonction de la fréquence du mot dans le texte ; il est issu des techniques utilisées dans les sciences de l'information. Les méthodes linguistiques se fondent sur le repérage de marques linguistiques de « surface » comme des marques lexicales (des mots ou des locutions) ou des marques structurelles (place de la phrase dans le paragraphe, etc.). Cette étape de repérage permet d'attribuer une ou plusireurs annotation aux phrases du texte source.

Enfin, le résumé est construit à partir de la liste des phrases sélectionnées, en respectant l'ordre dans lequel les unités apparaissent dans le texte source tout en veillant à ne pas dépasser un nombre total d'unités textuelles, appelé seuil de réduction. Ce seuil est souvent proportionnel à la taille du texte source, comme c'est en général le cas des résumés produits par des professionnels (un seuil de 20% est considéré comme une norme dans les sciences de l'information). Certaines méthodes cherchent à améliorer la lisibilité du résumé en contrôlant la cohérence et la cohésion de celui-ci.

Perspectives

Les travaux actuels visent à ne plus considérer le résumé comme indépendant du texte dont il est issu. En effet, l'informatique, associée avec des outils du multimédia fournit des fonctionnalités qui permettent d'offrir à l'utilisateur les moyens de naviguer entre un extrait et le texte original. Plutôt que de chercher à produire un résumé autonome, ce qui nécessite de résoudre des problèmes difficiles comme la résolution des anaphores ou le repérage des liens de cohésion et de cohérence, l'objectif se déplace vers la production d'une synthèse composée d'informations jugées saillantes, et à la construction de liens qui permettent à l'utilisateur, au vu des informations partielles qui lui sont présentées, de fouiller à la demande le texte source.

Bibliographie

-  CHAROLLES, M. (1991). Marquages linguistiques et résumé de texte, Actes du colloque international de linguistique (aspects linguistiques, sémiotiques, psycholinguistiques et automatiques), Charolles M., Petitjean (eds.), Pont-à-Mousson, Paris, Klincksieck, p. 11-27.

-  KINTSCH W., T. A. VAN DIJK. (1978). Toward a model of text comprehension and production, Psycological review, 85, p. 363-394.

-  MANI, I. (2001). Automatic Summarization, John Benjamins Publishing Company, Amsterdam.

-  MINEL J.-L. (2003). Filtrage sémantique. Du résumé à la fouille de textes. 200 pages, Editions Hermès, Paris.

-  MINEL J.-L., J.-P. DESCLES. (2000) Résumé Automatique et Filtrage des textes, in Ingénierie des langues, (sous la direction de J-M. Pierrel) Paris, Editions Hermès, p. 253-270.

Jean-Luc Minel

Haut de la page

-  Traduction automatique

Un système de traduction automatique par ordinateur (TAO) permet de traduire un document original en langue source en un document traduite en langue cible.

On distingue plusieurs types de TAO :

  • La TAO du veilleur permet de traduire automatiquement et rapidement de grands volume de documents, la traduction est grossière, mais la qualité n'est pas essentielle car il s'agit de faire de l'acquisition d'informations. Les systèmes disponibles gratuitement sur le web sont de ce type.
  • La TAO du réviseur permet de produire des traductions dont la qualité est suffisante pour que l'utilisateur puisse post-éditer (réviser) le texe cible afin d'obtenir une traduction diffusable. Ce sont des systèmes "sur mesure" pour des utilisateurs et des typologies de documents donnés. Lorsque le domaine et le type des documents à traduire, la révision peut même être l'exception. C'est le cas, par exemple, pour le système METEO qui traduit des bulletins météorologiques au Canada.
  • La TAO du traducteur offre, à des traducteurs humains, un ensemble d'outils (dictionnaires bilingues, bases terminologiques, thesaurus de bitextes), accessibles depuis un traitement de texte, afin de les assister dans leurs tâches quotidiennes. Il s'agit ici de traduction humaine assistée par la machine.

Les différents traitement linguistiques mis en œuvre dans un système de TAO permettent de définir l'architecture linguicielle du système. Pour simplifier, on distingue en général trois étapes de traitement : l'analyse, le transfert et la génération. Ces étapes utilisent des grammaires de transformation (chaîne vers arbre, arbre vers arbre, arbre vers chaîne) et des dictionnaires monolingues ou bilingues.

  • L'analyse calcule une structure intermédiaire plus ou moins profonde (plus ou moins abstraite, sémantique) des énoncés en langue source.
  • Le transfert calcule une structure intermédiaire équivalente à un niveau d'abstraction proche de celui qui a été calculé en langue cible. Il s'agit, par exemple, de remplacer les mots de la langue source par les mots de la langue cible et de réorganiser la structure.
  • La génération calcule un texte en langue cible à partir de la représentation intermédiaire en langue cible.

Si l'étape d'analyse permet d'obtenir une représentation sémantique abstraite de l'énoncé à traduire, il n'y a pas d'étape de transfert, mais directement une étape de génération. On parle dans ce cas de tradcution par pivot. Inversement, si l'étape d'analyse est très réduite (recherche des formes du dictionnaire des mots du texte), l'étape de transfert fait tout le travail, et il n'y a pas de génération. On parle alors de traduction directe (ou de système de première génération). Dans les autres cas on parle de traduction par transfert (ou de système de seconde génération).

Il existe aussi des systèmes de traduction qui utilisent des approches fondées sur les données : les systèmes à mémoire de traduction et les systèmes statistiques. Le cœur d'un système à mémoire de traduction est une base de données dans laquelle chaque segment déjà traduit est représenté par sa représentation en langue source et sa représentation en langue cible. La représentation peut être plus ou moins complexe allant d'une simple chaîne de caractères à une représentation utilisant plusieurs niveaux de représentation linguistique. Traduire un nouveau segment S signifie chercher une combinaison de segments, ou sous-segments, de la base de données qui se rapproche le plus de S. Les traductions des segments ou sous-segments choisis sont combinées pour produire une traduction de S en langue cible.

Avec un système de traduction statistique, on considère la traduction comme un problème de décodage. Le modèle de base utilise deux sources de connaissances statistiques définies par des distributions de probabilités calculables séparément :

  • un modèle de traduction Pr(s|c) qui nécessite de définir une correspondance entre les mots de la phrase cible c et les mots de la phrase source s.
  • un modèle de langage de la langue cible Pr(c) qui définit la bonne formation d'une suite de mots en langue cible c.
L'étape de traduction proprement dite est une étape de décodage (de recherche) qui cherche à maximiser le produit Pr(c).Pr(s|c) pour l'ensemble des phrases cibles c connaissant la phrase source s.

Hervé Blanchon

Dernière modification le 5 septembre 2005

  Techniques et applications de traitement de la parole
  Technologies du traitement de l'écrit