Secteur TAL Informatique

ILPGA Université Paris 3

Parcours TAL : le TAL ?

Traitement Automatique du Langage (TAL)

introduction

Références Bibliographiques Ce document utilise le glossaire de linguistique informatique mis en oeuvre par Lionel Delafosse.



 

1. Exemple d'architecture d'un système deTAL

Pour commencer, nous présentons d'une illustration d'une architecture simplifiée de système de TAL (cf LIA 99 : présentation faite par J-C Chappelier (chaps@lia.di.epfl.ch) à l'adresse suivante : liawww.epfl.ch/~chaps/.)
 
 


Exemple de synthèseExemple de texteExemple de lexiqueExemple de grammaireExemple d'analyse syntaxiqueExemple d'analyse sémantiqueExemple de dictionnaire
sémantique

Les zones en bleu sont cliquables et donnent une illustration d'exemples de données.

2. Présentation du TAL

2.1. Préliminaires


Le traitement automatique des langues (TAL) a pour objectif de traiter des données linguistiques (textes) exprimées dans une langue dite "naturelle" (Delafosse 1999).

L'objectif des traitements automatiques des langues est la conception de logiciels ou programmes, capables de traiter de façon automatique des données linguistiques, c’est-à-dire des données exprimées dans une langue (dite "naturelle"). Ces données linguistiques peuvent être des textes écrits, ou bien des dialogues écrits ou oraux, ou encore des unités linguistiques de taille inférieure à ce que l’on appelle habituellement des textes (par exemple : des phrases, des énoncés, des groupes de mots ou simplement des mots isolés).

Le traitement, dit automatique par opposition à un traitement manuel ou instrumental opéré par l’humain, utilise un ordinateur c'est-à-dire une machine conçue pour effectuer des calculs. Un traitement automatique est une suite d’actions ou calculs à faire effectuer par la machine dans un certain ordre chronologique, c'est-à-dire un programme. Traiter un objet linguistique de façon automatique, implique un certain nombre de contraintes dans la description même de cet objet : il faut pouvoir arriver à formuler de façon totalement explicite et cohérente des ensembles de règles caractérisant le fonctionnement du texte.

Le TAL met en oeuvre des outils et des techniques de traitement qui sont de trois ordres :


 

L’élaboration de systèmes  performants passe donc par le détour de recherches fondamentales, en matière notamment de compréhension de texte et de génération de texte. Dans ces deux perspectives, le traitement de la langue porte non seulement sur les formes, mais aussi sur le contenu ; il doit mettre en oeuvre des connaissances linguistiques très complètes (relevant des niveaux de la morphologie, de la syntaxe, de la sémantique et de la pragmatique), ainsi que des connaissances d’univers. De telles recherches revêtent nécessairement un caractère pluridisciplinaire, et doivent associer étroitement linguistes et informaticiens.


 

2.2. Les niveaux de traitement

La mise en oeuvre d'une véritable analyse linguistique nécessite la capacité, pour le système de pouvoir :
 
  • reconnaître (niveau morpho­lexical)
Aujourd'hui, parce qu'il a acheté des pommes de terre, Luc a payé la T.V.A.
  • structurer (niveau syntaxique)
    Le boucher sale la tranche.
     
  • comprendre (niveau sémantique)
Elle a mangé du poisson avec des amis.
  • contextualiser (niveau pragmatique)
Il a demandé l'addition à la serveuse et l'a payée.
2.2.1. Analyse morphologique et lexicographique

 

Problèmes à résoudre :

                    parce que, pomme de terre
                    Aujourd'hui, qu'il, 1'000 francs
                    O.N.U, 3.2 degrés La morphologie :

Les problèmes précités relèvent principalement de la morphologie (étude de la structure des mots) et de la lexicographie (recensement et classification des formes d'une langue). Ces domaines s'intéressent plus particulièrement à la diimension paradigmatique de la langue (par opposition à sa dimension syntagmatique)

Un exemple :

Pour illustrer les problèmes abordés ici, nous reprenons ici l'exemple de (Delafosse1999).. Soit la chaîne de caractères :


 


Jean a mangé des pommes.


 


La segmentation se fera de la manière suivante :
 


U1 = Jean, U2 = a mangé, U3 = des, U4 = pommes, U5 = . (point)


 


Maintenant, on pourra associer toutes sortes d'informations aux Ui (i = 1, 2, 3, ...), comme par exemple :

U1 = Jean :

  • Informations morpho-syntaxiques : nom propre, masculin, singulier.
  • Informations sémantiques : animé humain, prénom ...
  • U2 = a mangé :
  • Forme lemmatisée : manger
  • Informations morpho-syntaxiques : verbe, passé composé, indicatif, 3ème personne, singulier, constructions : transitif, ...
  • Idem pour U3, U4, ...

    Remarque : il y a des phénomènes (concernant le choix et le statut des unités) qui sont répertoriés de longue date par les linguistes : qui conduisent à s’interroger sur la notion de mot : élision, amalgames, flexions, dérivations, composition, ...
     

    2.2.2. Analyse syntaxique

     

    La syntaxe vise à  l'étude des contraintes entre les catégories morpho­syntaxiques devant être prises en compte pour la description des séquences de mots "acceptables" dans une langue donnée. Les contraintes peuvent être de nature sélectionnelle (règles d'accord) ou positionnelle. La description des contraintes caractéristiques d'une langue se fait par le biais d'une grammaire.

    La syntaxe permet de résoudre (ou réduire) des ambiguïtés au niveaux inférieurs :

    Elle peut aussi faciliter la formulation des connaissances sémantiques ou pragmatiques. Par exemple, elle impose des contraintes sélectionnelles pour le verbe " manger " : sujet animé, objet comestible.
     

    2.2.3. Analyse sémantique

    Au sens littéral, la sémantique vise à l'étude du sens hors contexte.

    Le niveau sémantique est encore beaucoup plus complexe à décrire et à formaliser que les niveaux de traitements précédents, par conséquent les réalisations qui sont opérationnelles sont peu nombreuses, et elles concernent des applications très limitées où l'analyse sémantique se réduit à un domaine parfaitement circonscrit ; par contre, on est encore loin de savoir construire en grandeur réelle des analyseurs sémantiques généraux qui couvriraient la totalité de la langue et seraient indépendants d'un domaine d'application particulier (Delafosse 1999).

    Le traitement sémantique prend comme unité d'analyse la phrase, et conduit à représenter sa partie significative. Ces phrases, dont l'analyseur sémantique doit décrire le sens, se composent d'un certain nombre de mots identifiés par l'analyse morphologique, et regroupés en structures par l'analyse syntaxique. Ces mots et ces structures constituent autant d'indices pour le calcul du sens : on pourrait dire, que le sens résulte de la double donnée du sens des mots et du sens des relations entre mots (Delafosse 1999).

    2.2.4. Analyse pragmatique

     

    La pragmatique vise à l'étude du sens en contexte

    L'analyse sémantique de la phrase isolée, traitée hors contexte, ne conduit à représenter que la partie de la signification des mots dans cette phrase, elle n'épuise donc pas ce que l'on peut appeler la signification complète d'un texte, telle que l'humain l'appréhende lors d'un processus de compréhension. C'est la raison pour laquelle une analyse pragmatique est nécessaire, et qui consiste à trouver la signification "réelle" des phrases liées aux conditions situationnelles et contextuelles d’utilisation des mots (Delafosse 1999).
     

    2.2.5. Exemples de données

     

    2.2.6. Interdépendance entre les niveaux

     

    il dst parti
    dst -> est, dit, dot, dut, ... ? ? ? ?
    il vsise le couvercle à la boîte
    vsise -> visse, vise, voise, sise...
    la prte de la maison
    prte -> porte, perte, parte, prête...


    il mange du poisson avec une fourchette

    nécessité de connaissances sémantiques...

    La petite brise la glace

    nécessité de connaissances pragmatiques


     
    2.2.7. Exemples de difficultés

     

    Difficultés au nieau lexical

    la disprition du coupable
    disprition-> disparition : facile...

    Les formes erronées ne sont pas toujours évidentes à repérer :

    la lasse du chien
    lasse -> laisse (liasse?)

    et la distance lexicographique à la forme correcte n'est pas toujours un critère fiable :

    ils ont été painné par cette nouvelle
    painné -> peinés

    Difficultés aux niveaux sémantique et pragmatique


     
    La mousse aux fraises est sur la table de l'avocat.
    mousse : dessert ou végétal
    fraise : fruit ou outil
    table : meuble ou ensemble de données
    avocat : juriste ou fruit
    le bus a renversé un passant ...
    ... je l'ai entendu freiner
    ... je l'ai entendu crier

    le professeur a envoyé l'élève chez le proviseur car ...
    ... il faisait trop de bruit
    ... il était excédé
    ... il l'avait convoqué

    Jacques a évité le singe, le tigre aussi... Jacques a évité le tigre, le singe aussi...
    Elle a épousé un professeur de droit anglais.
    Il regarde l'homme avec un téléscope.
    La maison de la femme que nous avons vue hier...


    2.3. Les domaines du TAL

    Le TALN apparaît comme une composante identifiée dans plusieurs grands domaines d'application : la traductique , la bureautique , la gestion électronique de documents , les Interfaces Homme­Machine. Pricipaux domaines liés aux TAL :

  • Traitement de la parole
  • Aide à la rédaction : correction de textes, génération de textes
  • Traduction automatique
  • Compréhension automatique des textes
  • Génération automatique de textes
  • Dialogue homme-machine
  • Gestion électronique de l’information et des documents existants (GEIDE)
  • Recherche documentaire
  • Filtrage, classification d'information
  • Traitement du courrier électronique, dépêches d'agences, brevets, ...
  • Interfaces en langage naturel : commande vocale (poste de pilotage, tri de bagages, chirurgie, automobile, ...)
  • Serveurs vocaux
  • Dialogue (interactif) en langage naturel
  • ....
  • 2.4. Comment faire du TAL

    Les contraintes imposées par les contextes d'application imposent des limitations importantes sur la complexité des modèles qui peuvent être envisagés. Les modèles effectivement utilisés sont essentiellement des grammaires non contextuelles (ou certaines extensions de ces grammaires).

    2.4.1. L'approche classique

     


    Les limites de l'approche classique

    2.4.2. L'approche " à base de corpus "

     

    On ne cherche plus à reproduire la compétence à l'aide de modèles formalisant notre compréhension du langage mais à reproduire, pour une classe d'applications TLN donnée, la performance linguistique associée, et ce, à l'aide de modèles automatiquement extraits de volumes importants de données textuelles caractéristiques de la classe d'applications envisagée.

    La validation des modèles obtenus n'est pas liée à leur capacité explicative du fonctionnement de la langue mais repose sur l'évaluation de l'amélioration des performances que permettent ces modèles pour l'application TLN envisagée.

    Caractéristiques principales de l'approche à base de corpus


     

     

    Rechercher une entrée du TLFi :

     

    Rechercher une entrée du XMLittré :