Serge Fleury
POLAS FRITAS
"Prototype Oriented Language HAS FREED US"
La Programmation à Prototypes (PàP), un outil pour une linguistique expérimentale. Mise en oeuvre de représentations évolutives pour le TALN
Décembre 1997
Serge Fleury
Représentation et classement évolutifs de mots
Notre travail vise à automatiser les traitements de représentation des mots et de leur classement, à partir d'informations extraites sur corpus, et à souligner les limites de cette induction de savoirs (un travail d'interprétation manuel semble indispensable). L'apprentissage sur corpus vise à repérer les arbres élémentaires de dépendance entre mots (relations opérateur-opé randes) et les contraintes sur les combinaisons de ces arbres. La phase d'acquisition de savoirs à partir de corpus prend appui sur la systématicité structurelle et sé mantique propre aux sous-langages [HAR 70-88] afin de mettre au jour les proximités de cooccurrences entre mots pour dégager les relations sémantiques sous-jacentes. Le point de départ du travail de représentation est constitué par le corpus MENELAS [ZWE 94]. Les informations utilisées par les processus de représentation informatique des mots et des arbres associés sont issues d'une chaîne de traitements composée des logiciels LEXTER, AlethIP et ZELLIG [HAB 96]. Le but de ces outils est d'une part d'extraire des informations à partir de corpus (LEXTER, AlethIP) et d'autre part de simplifier ces informations puis de caractériser leurs fonctionnements (ZELLIG).
Le dispositif GASPAR a pour but : d'une part de construire des représentations évolutives pour les mots à partir d'informations extraites sur corpus ; d'autre part, il doit conduire à la construction de classes de mots de maniè re inductive. Les classes de mots produites peuvent ensuite être utilisées dans des applications liées à la construction de bases de connaissances sur un domaine de spécialité. Notre objectif est de tendre vers la dé termination de classes sémantiques, de manière inductive. Il convient de souligner que le classement opéré s'appuie principalement sur des contraintes syntaxiques. La syntaxe est utilisée pour dé grossir le classement. A l'inverse des approches harrissiennes et statistiques, notre approche ne conduit pas à la détermination de classes sémantiques satisfaisantes mais elle constitue une méthode d'amorçage pour l'é laboration de l'ontologie du domaine, nous suivons sur ce point la démarche suivie par [HAB 96] : la construction de l'ontologie du domaine étudié nécessite un part d'interprétation, "il y a, entre le flou notionnel inhé rent aux langues naturelles, y compris aux langues de spécialités, et la stabilité conceptuelle qui est requise dans les ontologies construites, un seuil qui ne peut être franchi automatiquement".
GASPAR est une chaîne de traitements automatiques pour la représentation et le classement automatiques de mots et de leurs comportements syntaxico-sémantiques. Il dispose au départ d'informations extraites (via ZELLIG) à partir d'un corpus (sous la forme d'un fichier texte) : pour chaque entrée lexicale, le dispositif GASPAR dispose d'informations morphologiques et sémantiques décrivant ces mots, d'une liste d'arbres élé mentaires et d'une liste d'arbres d'analyse associés aux arbres élémentaires. Le dispositif GASPAR utilise ces informations pour construire des prototypes afin de représenter les mots et leurs comportements (les arbres associé s). L'utilisateur peut ensuite affiner la représentation des objets construits si de nouvelles informations sont disponibles. Après la phase de représentation des mots et de leurs comportements syntaxiques, le dispositif GASPAR peut amorcer un d ébut de classement des prototypes de mots en fonction de leurs comportements syntaxiques. Le classement escompté ne concerne que l'examen des prototypes au regard des savoirs linguistiques qui leurs sont attaché s. Le classement des prototypes de mots en ce sens signifie que l'on s'intéresse aux comportements linguistiques associés à ces objets et que l'on cherche à évaluer les partages possibles de tels comporteme nts : il s'agit en particulier de chercher les prototypes d'arbres élémentaires communs à un ensemble de prototypes de mots. Ce classement sur les entités représentées vise à la construction de réseaux entre les prototypes dé finis à la manière d'un parcours entre ces prototypes pour y trouver le chemin interprétatif adéquat. Le réseau mis en place ne construit pas pour autant une représentation du sens attaché aux unité s lexicales ou au structures syntaxiques représentées, il doit proposer des chemins interprétatifs qui ne constituent que des amorces d'interprétation devant être affinées par un travail d'interpré tation plus fin. Notre approche vise donc à définir une démarche en spirale : construire des représentations par affinements successifs avec projections de savoirs soit constitués soit é tablis par ailleurs ; puis ajustements et affinements des représentations à chaque nouvelle étape. Ce dispositif met aussi en avant la nécessité de penser puis de construire une interface homme-machine pour mener à bien l'exploration des représentations de données linguistiques par les mécanismes prototypiques. Cette interface doit aussi guider le linguiste dans son travail d'interprétation des faits de langue manipulés et des ré sultats produits dans ce dispositif expérimental.
Echéances