GASPAR, UN DISPOSITIF EXPERIMENTAL POUR LE TRAITEMENT AUTOMATIQUE DU LANGAGE NATUREL AVEC LA PROGRAMMATION A PROTOTYPES
REPRESENTATION ET CLASSIFICATION EVOLUTIVES DES CONNAISSANCES POUR LE LANGAGE NATUREL
Serge Fleury
ELI (Equipe Linguistique et Informatique)
Ecole Normale Supérieure de Fontenay-St Cloud
31 avenue Lombart
F-92260 Fontenay aux Roses
e-mail : fleury@ens-fcl.fr
http://www.ens-fcl.fr/~fleury/
Représentation et classification évolutives
1. Représentation automatique des mots
La génération d'un prototype de mot est réalisée de la manière suivante. Si le mot à représenter possède une représentation prototypique, GASPAR conserve l'objet trouvé. Si le mot à représenter ne possède pas de représentation prototypique, et s'il n'existe aucune représentation prototypique de sa famille catégorielle, GASPAR commence par créer de toutes pièces une représentation prototypique de cette nouvelle famille catégorielle, puis il construit une représentation prototypique de ce nouveau représentant de cette famille (en tenant compte des informations fournies pour décrire ce nouvel élément).
Figure 13. Génération automatique d'un prototype de mot
Si le mot à représenter ne possède pas de représentation prototypique et s'il existe déjà une représentation prototypique d'un élément de la même famille catégorielle, GASPAR utilise les opérations de clonage et d'ajustement pour représenter ce nouvel élément (en tenant compte des informations fournies pour décrire ce nouvel élément).
Figure 14. Génération d'un prototype de mot par clonage et ajustement.
2. Représentation automatique des arbres associés aux mots
Le dispositif GASPAR procède de la même manière pour la représentation des arbres. Pour chaque mot, on dispose d'une liste d'arbre élémentaire à représenter. Avant de représenter ces arbres élémentaires, le dispositif GASPAR vérifie si ces arbres disposent déjà d'une représentation prototypique. Si elle n'existe pas, il la créé automatiquement en tenant compte des informations fournies : constituants et contraintes. Dans la figure qui suit, le dispositif GASPAR construit les structures pour représenter les arbres associés à
pontage en tenant compte des informations données pour la description de ces arbres.
Figure 15. Génération de prototypes d'arbre élémentaire.
Puisque les mots pontage et effort partagent des arbres élémentaires (les arbres N1PrepNPivot et NAdj), les prototypes d'arbres déjà construits pour pontage et partagés par effort seront associés au prototype de mot associé à effort.
Pour représenter les arbres dŽanalyse, le dispositif GASPAR vérifie là encore si ces arbres disposent déjà d'une représentation prototypique. Si elle n'existe pas, il la créé automatiquement en tenant compte des informations fournies : constituants et contraintes.
Figure 16. Génération de prototypes d'arbre dŽanalyse.
Le dispositif GASPAR affecte ensuite aux prototypes de mots construits leurs comportements. Après la création des prototypes d'arbres élémentaires, il affecte les prototypes d'arbres aux prototypes de mots auxquels ils sont associés. De même, il associe les prototypes d'arbres d'analyse construits aux prototypes d'arbres élémentaires associés. Les figures qui suivent résument le processus de génération mis en place. Le dispositif GASPAR utilise des informations issues d'un travail d'extraction à partir de corpus. À chaque mot sont associées les informations suivantes :
Figure 17. Avant GASPAR.
Ces informations peuvent être connues avant la phase de génération automatique des objets ou peuvent être utilisées dès qu'elles sont disponibles pour affiner la représentation des objets construits. Pour chaque mot, le dispositif GASPAR est donc amené à construire :
Figure 18. Après GASPAR.
Le dispositif GASPAR construit aussi les liens qui existent entre chacun des objets construits. Pour chaque mot, le dispositif GASPAR a donc construit un mini-réseau de prototypes décrivant la micro-syntaxe associée à ce mot. La représentation des mots reste bien évidemment sous-déterminée. C'est l'examen des contextes (les arbres associés) qui doit permettre de tracer des pistes de sens. Si de nouvelles informations sont disponibles, on peut ensuite affiner la représentation syntaxico-sémantique des mots et des arbres en utilisant le potentiel dynamique de Self (ajustement dynamique des objets). Dès cette phase de représentation, l'utilisateur peut intervenir pour ajuster les objets construits suivant les nouvelles informations disponibles.
3. Le réseau de prototypes dévoile une hiérarchie évolutive
GASPAR amorce un classement des prototypes de mots en fonction de leurs comportements (les arbres associés aux mots). Il recherche donc les comportements partagés par les prototypes de mots construits. Si on considère les noms
stenose et lesion, ils partagent des comportements (les arbres NPivotPrepN2 et NAdj). Si on considère maintenant le nom angioplastie, celui-ci entre dans des constructions du type "indication de angioplastie" (l'arbre N1PrepNPivot). GASPAR construit donc un pôle de comportements partagés qui va porter les arbres élémentaires communs. Il établit un lien de délégation entre ce pôle et les prototypes concernés. Sur notre famille de mots comprenant les noms stenose, lesion et angioplastie, on obtient le mini-réseau suivant :
Figure 19. Un mini-réseau de comportements partagés.
Sur un ensemble plus important de prototypes de mots de même catégorie, il s'agit en fait de déterminer les comportements partagés sur cette famille de prototypes. GASPAR recherche donc les arbres élémentaires communs à un ensemble de prototypes de mots. Si GASPAR trouve des arbres élémentaires communs à un sous-ensemble de prototypes, il construit automatiquement un pôle de comportements partagés qui va porter les arbres élémentaires communs. Il établit ensuite un lien de délégation entre ce pôle et les prototypes concernés. GASPAR met donc en place, automatiquement, un réseau de pôles de comportements partagés en définissant des hiérarchies locales sur des sous-ensembles de prototypes de la famille catégorielle. Ce premier classement s'appuie sur les comportements syntaxiques attachés aux prototypes de mots. Il ne dit rien de plus sur les agrégats de comportements partagés construits.
4. La classification évolutive est en marche
La mise en oeuvre des processus de classement construits confirme les multiplicités de comportement possibles sur les mots. Comme on pouvait s'y attendre, on ne trouve jamais de comportement(s) partagé(s) par tous les membres d'une même famille catégorielle. Il convient donc d'interroger les savoirs représentés de manière plus fine si on veut y découvrir des similarités comportementales [HAB 96]. Les processus construits permettent en fait d'évaluer plusieurs types de recherches de comportements partagés sur les objets construits.
(1) Le dispositif GASPAR peut tout d'abord rechercher sur tous les mots d'une même catégorie s'il existe des arbres élémentaires en commun. Si tous les prototypes de mots d'une même catégorie partagent exactement les mêmes comportements (les mêmes prototypes d'arbres élémentaires), l'objet
traits qui porte les comportements partagés de cette catégorie est mis à jour : il portera ces comportements communs. Dans tous les cas, les prototypes de mots portent, quant à eux, leurs comportements propres.
(2) Le dispositif GASPAR peut ensuite rechercher sur les prototypes pris deux à deux s'ils partagent des arbres élémentaires. Si deux prototypes de mots d'une même catégorie partagent un ou plusieurs comportements (un ou plusieurs prototypes d'arbres élémentaires), un objet
traits est automatiquement construit pour porter ces comportements partagés. Dans ce cas, le dispositif GASPAR ajoute automatiquement aux prototypes concernés un attribut parent qui pointe sur ce nouvel objet porteur de comportements partagés.
Figure 20. Classement des mots deux à deux.
Il est possible de réaliser ce type de recherche sur deux mots particuliers ou sur l'ensemble des mots (pris deux à deux et dans chaque catégorie).
Figure 21. Classement des mots par sous-familles.
(4) Le dispositif permet enfin d'évaluer automatiquement les différences comportementales des arbres élémentaires. Il est en effet possible d'établir une recherche sur les arbres élémentaires de même catégorie des comportements partagés (arbres d'analyse) par ces arbres élémentaires. Ce classement utilise une démarche similaire à celle qui est utilisée pour classer les mots. Si plusieurs prototypes d'arbres élémentaires d'une même catégorie partagent exactement les mêmes comportements (les mêmes prototypes d'arbres d'analyse), un objet
traits est automatiquement construit pour porter ces comportements partagés. Là encore, le dispositif GASPAR ajoute automatiquement aux prototypes concernés un attribut parent qui pointe sur ce nouvel objet porteur de comportements partagés.
Figure 22. Classement des arbres élémentaires en sous-familles catégorielles.
5. Une amorce de classement guidée par la syntaxe
GASPAR permet donc d'activer des processus de classement qui proposent des regards multiples et croisés sur les informations représentées. Ces processus construisent des réseaux de hiérarchies locales entre prototypes de mots et prototypes d'arbres ou entre prototypes d'arbres, ces liens multiples constituent autant de pistes de sens à interpréter.
Figure 19. Des micro-réseaux de prototypes interconnectés.
Dans ce qui a été présenté supra, les comportements associés aux représentations prototypiques des mots sont de simples squelettes syntaxiques dépourvus de contraintes particulières. Les processus de classement prennent appui sur ces informations syntaxiques pour regrouper les prototypes de mots. Il est clair que la simple recherche de similitude de comportements syntaxiques entre mots n'est pas suffisante pour une classification cohérente des mots représentés : "/./ des propriétés contextuelles permettent de rapprocher certains mots, mais la syntaxe seule ne permet pas d'identifier les liens sémantiques entre ces unités lexicales. Elle suggère des liens de hiérarchie (générique vs. spécifique) ou des relations conceptuelles (ex. a pour partie ) mais des connaissances extérieures sont nécessaires pour valider la nature de ces liens" [HAB 96a]. La syntaxe doit en quelque sorte dégrossir la représentation mais ne permet pas à elle seule de classer les mots représentés ; la syntaxe est incapable à elle seule de délimiter des classes de mots reflétant une notion. On peut avoir un rapprochement de certains mots suivant certains comportements syntaxiques, mais aucune classification ne se révèle directement à partir des comportements syntaxiques [HAB 96a]. Repérer des similitudes formelles entre les représentations créées est une tâche à la portée de la programmation à prototypes et le classement obtenu ici est une amorce de classement sur lequel un travail d'interprétation reste à faire. Evaluer ces similitudes formelles et interpréter les regroupements restent des tâches auxquelles doit être confronté le linguiste dans la mesure où il est le seul à pouvoir y apporter une réponse précise.
6. Une démarche expérimentale et en spirale
Notre démarche cherche à réaliser une adéquation entre les occurrences linguistiques réalisées et les prédictions de représentations construites. Il ne s'agit pas de produire d'emblée un résultat définif qui réalise cette adéquation de manière parfaite ; mais plutôt de tendre vers cette adéquation, par touches successives, en affinant les prédictions construites. La mise en oeuvre des représentations est donc conçue comme un mécanisme évolutif qui, d'une part, doit tenir compte d'un nombre important de sources de connaissances, et d'autre part, doit être capable d'intégrer de nouvelles informations à chaque étape. GASPAR peut disposer en amont de plusieurs couches d'informations. Si le travail d'extraction de savoirs est capable de mettre en évidence différents types d'informations pour décrire un mot, GASPAR utilise ces informations dès la première phase de génération du prototype construit pour représenter ce mot. On peut aussi envisager de procéder à une acquisition de savoirs en réitérant la phase initiale de recherche d'informations à partir du corpus. On pourrait ainsi moduler et modulariser cette phase d'acquisition de savoirs en activant différents flux de savoirs. Si les informations attachées aux mots ne sont pas disponibles dès la première phase de génération des prototypes associés, il sera toujours possible d'ajuster les représentations construites en utilisant un nouveau flux d'informations disponibles ultérieurement. Il est aussi possible de projeter les résultats transitoires obtenus sur des savoirs établis par ailleurs et d'utiliser les résultats de ces projections pour ajuster les représentations. Le processus de représentation peut donc se développer en réitérant les phases suivantes :
représentations à partir de savoirs extraits d'un corpus
projections des résultats
ajustements des représentations
ajustement du classement
Ces différentes étapes peuvent induire des phases intermédiaires de travail manuel pour corriger les états de représentation produits [MIK 94]. Si le dispositif GASPAR peut automatiser le classement des prototypes de mots sur la base des comportements qui leurs sont associés, les résultats restent à qualifier, à nommer : dans notre dispositif, c'est l'observateur conscient qui donne le sens. C'est en examinant à la main les objets construits et les rapprochements constatés que l'on pourra leur donner un nom c'est à dire nommer les choses. Il s'agit en fait de tendre vers une cohérence des classes sémantiques issues des processus de classement afin de dégager par affinements successifs des descriptions sémantiques pour les mots représentés.