Secteur TAL Informatique
ILPGA Université Paris 3
Parcours TAL : le TAL ?
Traitement Automatique du Langage (TAL)
introduction
Références Bibliographiques- Présentation du TAL par Lionel Delafosse 1999.
- Le cours TAL du LATL 1999.
- Le cours TAL (LIA) de l'Ecole Polytechnique Fédérale de Lausanne 1999.
- Habert Benoît, Cécile Fabre, Fabrice Issac, De l'écrit au numérique (constituer, normaliser et exploiter les corpus électroniques), InterEditions, 1998.
- Michèle Soria, Anne Brygoo, Michelle Morcrette, Odile Paliès, Initiation à la programmation par Word et Excel, International Thomson Publishing, 1998.
- Jean Baudot, Introduction aux grammaires formelles, SODICIS Editeur, Montréal, 1987.
- Pierrette Bouillon, Traitement automatique des langues naturelles, Editions Duculot, 1998.
1. Exemple d'architecture d'un système deTAL
Pour commencer, nous présentons d'une illustration d'une architecture simplifiée de système de TAL (cf LIA 99 : présentation faite par J-C Chappelier (chaps@lia.di.epfl.ch) à l'adresse suivante : liawww.epfl.ch/~chaps/.)
|
2. Présentation du TAL
2.1. Préliminaires
Le traitement automatique des langues (TAL) a pour
objectif de traiter des données linguistiques (textes) exprimées
dans une langue dite "naturelle" (Delafosse 1999).
L'objectif des traitements automatiques des langues est la conception de logiciels ou programmes, capables de traiter de façon automatique des données linguistiques, c’est-à-dire des données exprimées dans une langue (dite "naturelle"). Ces données linguistiques peuvent être des textes écrits, ou bien des dialogues écrits ou oraux, ou encore des unités linguistiques de taille inférieure à ce que l’on appelle habituellement des textes (par exemple : des phrases, des énoncés, des groupes de mots ou simplement des mots isolés).
Le traitement, dit automatique par opposition à un traitement manuel ou instrumental opéré par l’humain, utilise un ordinateur c'est-à-dire une machine conçue pour effectuer des calculs. Un traitement automatique est une suite d’actions ou calculs à faire effectuer par la machine dans un certain ordre chronologique, c'est-à-dire un programme. Traiter un objet linguistique de façon automatique, implique un certain nombre de contraintes dans la description même de cet objet : il faut pouvoir arriver à formuler de façon totalement explicite et cohérente des ensembles de règles caractérisant le fonctionnement du texte.
Le TAL met en oeuvre des outils et des techniques de traitement qui sont de trois ordres :
- linguistiques
- formels
- informatiques
L’élaboration de systèmes performants passe donc par le détour de recherches fondamentales, en matière notamment de compréhension de texte et de génération de texte. Dans ces deux perspectives, le traitement de la langue porte non seulement sur les formes, mais aussi sur le contenu ; il doit mettre en oeuvre des connaissances linguistiques très complètes (relevant des niveaux de la morphologie, de la syntaxe, de la sémantique et de la pragmatique), ainsi que des connaissances d’univers. De telles recherches revêtent nécessairement un caractère pluridisciplinaire, et doivent associer étroitement linguistes et informaticiens.
2.2. Les niveaux de traitement
La mise en oeuvre d'une véritable analyse linguistique nécessite la capacité, pour le système de pouvoir :
- reconnaître (niveau morpholexical)
Aujourd'hui, parce qu'il a acheté des pommes de terre, Luc a payé la T.V.A.
- structurer (niveau syntaxique)
Le boucher sale la tranche.
- comprendre (niveau sémantique)
Elle a mangé du poisson avec des amis.
- contextualiser (niveau pragmatique)
Il a demandé l'addition à la serveuse et l'a payée.
2.2.1. Analyse morphologique et lexicographique
Problèmes à résoudre :
- Qu'estce qu'un mot ? Comment segmenter un texte ?
- Que se passe-t-il pour les langues sans séparateurs (chinois, thaïlandais, ...)
- Quels types de séparateurs faut-il prendre en compte ?
Aujourd'hui, qu'il, 1'000 francs
O.N.U, 3.2 degrés
- Comment traiter les formes inconnues : pwrte, minitelisation, fichiers .bat, Sun
- ....
Les problèmes précités relèvent principalement de la morphologie (étude de la structure des mots) et de la lexicographie (recensement et classification des formes d'une langue). Ces domaines s'intéressent plus particulièrement à la diimension paradigmatique de la langue (par opposition à sa dimension syntagmatique)
Un exemple :
Pour illustrer les problèmes abordés ici, nous reprenons ici l'exemple de (Delafosse1999).. Soit la chaîne de caractères :
Jean a mangé des pommes.
La segmentation se fera de la manière suivante :
U1 = Jean, U2 = a mangé, U3 = des, U4 = pommes, U5 = . (point)
Maintenant, on pourra associer toutes sortes d'informations aux Ui (i = 1, 2, 3, ...), comme par exemple :
U1 = Jean :
U2 = a mangé :Informations morpho-syntaxiques : nom propre, masculin, singulier. Informations sémantiques : animé humain, prénom ...
Idem pour U3, U4, ...Forme lemmatisée : manger Informations morpho-syntaxiques : verbe, passé composé, indicatif, 3ème personne, singulier, constructions : transitif, ...
Remarque : il y a des phénomènes (concernant
le choix et le statut des unités) qui sont répertoriés
de longue date par les linguistes : qui conduisent à s’interroger
sur la notion de mot : élision,
amalgames,
flexions,
dérivations,
composition,
...
2.2.2. Analyse syntaxique
La syntaxe vise à l'étude des contraintes entre les catégories morphosyntaxiques devant être prises en compte pour la description des séquences de mots "acceptables" dans une langue donnée. Les contraintes peuvent être de nature sélectionnelle (règles d'accord) ou positionnelle. La description des contraintes caractéristiques d'une langue se fait par le biais d'une grammaire.
La syntaxe permet de résoudre (ou réduire) des ambiguïtés au niveaux inférieurs :
- au niveau phonétique :
il mange
île m'en jeu
yle m'ange ->...
- au niveau lexical :
il dst parti
il est dit ...
2.2.3. Analyse sémantique
Au sens littéral, la sémantique vise à l'étude du sens hors contexte.
Le niveau sémantique est encore beaucoup plus complexe à décrire et à formaliser que les niveaux de traitements précédents, par conséquent les réalisations qui sont opérationnelles sont peu nombreuses, et elles concernent des applications très limitées où l'analyse sémantique se réduit à un domaine parfaitement circonscrit ; par contre, on est encore loin de savoir construire en grandeur réelle des analyseurs sémantiques généraux qui couvriraient la totalité de la langue et seraient indépendants d'un domaine d'application particulier (Delafosse 1999).
Le traitement sémantique prend comme unité d'analyse la phrase, et conduit à représenter sa partie significative. Ces phrases, dont l'analyseur sémantique doit décrire le sens, se composent d'un certain nombre de mots identifiés par l'analyse morphologique, et regroupés en structures par l'analyse syntaxique. Ces mots et ces structures constituent autant d'indices pour le calcul du sens : on pourrait dire, que le sens résulte de la double donnée du sens des mots et du sens des relations entre mots (Delafosse 1999).
2.2.4. Analyse pragmatique
La pragmatique vise à l'étude du sens en contexte
L'analyse sémantique de la phrase isolée, traitée
hors contexte, ne conduit à représenter que la partie de
la signification des mots dans cette phrase, elle n'épuise donc
pas ce que l'on peut appeler la signification complète d'un
texte, telle que l'humain l'appréhende lors d'un processus de compréhension.
C'est la raison pour laquelle une analyse pragmatique
est nécessaire,
et qui consiste à trouver la signification "réelle" des phrases
liées aux conditions situationnelles et contextuelles
d’utilisation des mots (Delafosse 1999).
2.2.5. Exemples de données
- Au niveau morpholexical : règles morphologiques (grammaire du mot) et construction de lexiques informatiques
- Au niveau syntaxique : la construction de grammaires (formelles) de la langue
- Aux niveaux sémantique et pragmatique : construction de modèles formels des connaissances sur le monde (propositions logiques, réseaux sémantiques, graphes conceptuels, ...)
2.2.6. Interdépendance entre les niveaux
- nécessité de connaissances syntaxiques
dst -> est, dit, dot, dut, ... ? ? ? ?
- nécessité de connaissances sémantiques
vsise -> visse, vise, voise, sise...
- nécessité de connaissances pragmatiques
prte -> porte, perte, parte, prête...
- interdépendance syntaxesémantique
il mange du poisson avec une fourchette
nécessité de connaissances sémantiques...
La petite brise la glace
nécessité de connaissances pragmatiques
2.2.7. Exemples de difficultés
Difficultés au nieau lexical
- problème de la correction lexicale (mots erronés) :
disprition-> disparition : facile...
Les formes erronées ne sont pas toujours évidentes à repérer :
la lasse du chien
lasse -> laisse (liasse?)
et la distance lexicographique à la forme correcte n'est pas toujours un critère fiable :
ils ont été painné par cette nouvelle
painné -> peinés
Difficultés aux niveaux sémantique et pragmatique
- ambiguïté du sens des mots
mousse : dessert ou végétal
fraise : fruit ou outil
table : meuble ou ensemble de données
avocat : juriste ou fruit
- Le problème de la résolution des anaphores
... je l'ai entendu freiner
... je l'ai entendu crier
le professeur a envoyé l'élève chez le proviseur
car ...
... il faisait trop de bruit
... il était excédé
... il l'avait convoqué
- traitement des ellipses
- rattachement des adjectifs
- rattachement des groupes nominaux
- rattachement des relatives
2.3. Les domaines du TAL
Le TALN apparaît comme une composante identifiée dans plusieurs grands domaines d'application : la traductique , la bureautique , la gestion électronique de documents , les Interfaces HommeMachine. Pricipaux domaines liés aux TAL :
2.4. Comment faire du TAL
Les contraintes imposées par les contextes d'application imposent des limitations importantes sur la complexité des modèles qui peuvent être envisagés. Les modèles effectivement utilisés sont essentiellement des grammaires non contextuelles (ou certaines extensions de ces grammaires).
2.4.1. L'approche classique
- Recherche d'une formalisation de notre compréhension du fonctionnement de la langue permettant la reproduction, par un système artificiel, de la compétence linguistique de l'humain.
- C'est l'approche chomskienne de la linguistique qui s'est imposée à partir de la fin des années 50.
- Quantité de systèmes et de formalismes depuis les 30 dernières années, mais pas encore de description satisfaisante de la langue naturelle dans toute sa complexité.
- Le langage est un phénomène trop complexe (i.e. trop peu régulier) pour pouvoir être correctement décrit à l'aide de formalismes ou de structures à fort pouvoir généralisateur.
Les limites de l'approche classique
- Exemple de variation sémantique non marquée syntaxiquement :
- Lexicalisation nécessaire de l'information syntaxique, sémantique et pragmatique
- Du fait de la lexicalisation, nécessité d'un gigantesque travail de description
- 1. Luc a avoué ce vol à Guy.
2.Luc a attribué ce vol à Guy.
3.Luc a décrit ce vol à Guy.
dans 1, Luc est l'auteur du vol
dans 2, Guy est l'auteur (présumé) du vol
dans 3, l'auteur du vol n'est pas identifié )
2.4.2. L'approche " à base de corpus "
On ne cherche plus à reproduire la compétence à l'aide de modèles formalisant notre compréhension du langage mais à reproduire, pour une classe d'applications TLN donnée, la performance linguistique associée, et ce, à l'aide de modèles automatiquement extraits de volumes importants de données textuelles caractéristiques de la classe d'applications envisagée.
La validation des modèles obtenus n'est pas liée à leur capacité explicative du fonctionnement de la langue mais repose sur l'évaluation de l'amélioration des performances que permettent ces modèles pour l'application TLN envisagée.
Caractéristiques principales de l'approche à base de corpus
- La conception et l'implémentation de techniques d'extraction automatique (ou assistée) de connaissances à partir de corpus textuels importants
- La conception et l'implémentation de mécanismes de manipulation des connaissances ainsi extraites permettant une amélioration effective des performances pour des applications concrètes de traitement du langage naturel