Serge Fleury

Maître de Conférences en linguistique informatique Sorbonne nouvelle, Paris 3
Membre du SYLEDED268

ILPGA / Sorbonne nouvelle
 

Serge Fleury

POLAS FRITAS

"Prototype Oriented Language HAS FREED US"

La Programmation à Prototypes (PàP), un outil pour une linguistique expérimentale. Mise en oeuvre de représentations évolutives pour le TALN

Plan de la thèse

Cette thèse comprend trois parties.

Partie 1 : De la réalité

    Chapitre 1

    Ce chapitre introduit la nécessité de construire des représentations évolutives pour modéliser les faits de langue. Les faits de langue sont évolutifs et non figés. Les processus de représentation de ces faits de langue doivent donc tenir compte de ces évolutions potentielles. Le travail de représentation doit construire des ébauches. Il faut ensuite ajuster les représentations initialement définies en tenant compte des informations que l'analyse dévoile. Pour la construction du sens, il s'agit de décrire au mieux les mécanismes qui opèrent pour réaliser cette mise en action de mécanismes complexes si on veut s'approcher au plus près de ces mécanismes.

    Chapitre 2

    Ce chapitre présente certains modèles qui traitent de la construction du sens et qui sont globalement cohérents par rapport à nos hypothèses de travail. Il vise surtout à mettre en lumière les difficultés rencontrées pour cette modélisation dans un domaine de savoirs mouvants. La construction du sens s'effectue par touches successives. De nombreux savoirs réalisent cette construction du sens, et ils interagissent de manière complexe. Les mécanismes qui participent à l'interprétation agissent sur les savoirs présents dans le dit, mais ils sont aussi capables de reconstruire des savoirs matériellement absents de cette chaîne du dit.

    Chapitre 3

    Ce chapitre présente deux types d'outils disponibles pour mettre en oeuvre des processus de représentation (la Programmation à Objet dans une taxonomie de classes et la Programmation à Prototypes) et vise à établir une comparaison critique du pouvoir expressif de ces deux cadres de représentation. Dans un cas, il est plus facile de représenter des savoirs établis donc de fixer ces savoirs dans des hiérarchies. Dans l'autre cas, le processus de représentation est contraint par des savoirs non connus à l'avance : il est donc plus difficile de présumer de ces savoirs et de leur mode de structuration et d'organisation. Il s'agit donc d'évaluer les apports pertinents de chacun de ces cadres pour la représentation du langage naturel, ce dernier articulant très bien ces deux aspects de la manipulation des connaissances.

    Chapitre 4

    Ce chapitre insiste tout d'abord sur le fait que le TALN est confronté à des problèmes non triviaux quand il s'agit de donner une représentation matérielle de certains faits de langue en particulier quand il s'agit de construire un dispositif informatique qui tente de résoudre ou d'illustrer les problèmes liés aux traitements automatiques de ces faits de langue. Le traitement automatique doit passer par une phase de représentation des éléments linguistiques manipulés. Cette phase de représentation est contrainte de figer les savoirs à modéliser, de présumer de ce que les savoirs représentés peuvent réaliser.

    Ce chapitre introduit ensuite la démarche de représentation qui sera suivie dans ce travail via la programmation à prototypes. Il présente enfin les premiers choix faits pour une représentation de la construction du sens des séquences nominales du type moulin à N2

Partie 2 : Du possible

    Un cadre particulier de représentation : les prototypes.

    Le choix d'une représentation à l'aide de prototypes vise à illustrer le problème de l'évolution des représentations que le traitement automatique de la construction du sens requiert. Une telle approche de représentation privilégie la définition des éléments représentés de manière contextuelle puis leur spécialisation en tenant compte des évolutions contextuelles rencontrées. En termes de représentation, les prototypes permettent donc d'envisager une définition minimale du savoir linguistique qu'il est ensuite possible d'affiner. Il conviendra ensuite de mettre en lumière les mécanismes qui permettent d'affiner ces savoirs initialement représentés.

    Chapitre 5

    Ce chapitre est une introduction pour la mise en place d'une représentation de savoirs linguistiques avec des prototypes dans la PàP et en particulier pour la mise au point d'outils pour la construction du sens des séquences moulin à N2. On prend appui ici sur un modèle semantique particulier présenté dans le chapitre 1.

    Chapitre 6

    Ce chapitre poursuit le travail de mise au point du dispositif qui traite de la construction du sens des séquences moulin à N2. La démarche de représentation suivie amène à reformuler le problème traité et à proposer une nouvelle solution pour la représentation des savoirs manipulés.

    Chapitre 7

    Ce chapitre étend le processus de représentation de savoirs linguistiques. Il ne s'agit plus de restreindre le processus de représentation à certains types de séquences nominales mais de prendre appui sur des corpus (de taille importante) pour représenter les savoirs linguistiques à l'oeuvre sur les mots de ces corpus. Cette nouvelle approche utilise des savoirs extraits sur corpus pour construire automatiquement des structures décrivant ces savoirs puis classe les savoirs ainsi representés. Ce travail de représentation est conditionné par une phase d'extraction de savoirs sur corpus realisé par des analyseurs syntaxiques traditionnels.

    Chapitre 8

    Ce chapitre présente les différents outils mis en place pour réaliser les objectifs établis dans le chapitre précédent. Il met aussi en avant les limites des processus mis en place et le travail qu'il reste à definir pour affiner les résultats construits.

Partie 3 : De la "Science Fiction"

    Ce qu'il reste à faire : de la méta-connaissance à la réflexivité.

    Chapitre 9

    Les résultats obtenus dans les chapitres précédents ont mis en avant la nécessité de disposer de processus qui réalisent des méta-contrôles sur les opérations mises en oeuvre dans les dispositifs construits. Tout d'abord, ces processus doivent permettre de tracer les mécanismes fins et complexes mis en oeuvre. Ensuite, les problèmes posés mettent en avant un point fondamental pour la résolution d'un traitement automatique des faits de langue (aussi bien pour la construction du sens que pour le classement des savoirs linguistiques). Un programme de TALN doit pouvoir travailler sur de nombreuses connaissances, sur des méta-connaissances de ces dernières tout en reconstruisant dynamiquement de nouvelles connaissances. Ce dernier point n'est évidemment pas résolu ici mais est illustré dans notre cadre linguistique. Il n'est d'ailleurs pas encore accessible. On n'en sait pas encore assez sur les mécanismes qui permettent de reconstruire des connaissances. Il convient toutefois de poursuivre le travail de recherche sur l'utilisation des méta-connaissances pour le traitement automatique du langage naturel, quitte à limiter le champ d'étude sur des phénomènes restreints qui permettent de préciser les tâches encore à effectuer.