Serge Fleury

Maître de Conférences en linguistique informatique Sorbonne nouvelle, Paris 3
Membre du SYLEDED268

ILPGA / Sorbonne nouvelle
 
Retour Plan Slides TALN 1998

Gaspar : ce qui est construit


Classements des mots

Un dispositif expérimental implémenté avec Self-4.0

o Un prompt interactif dans une fenêtre shell

o Une interface graphique

o Utilisation du potentiel graphique de Self

o Une interface qui permet l'animation

Gaspar (1)

Browser Gaspar

Interfaces pour données et résultats (1)

Interfaces pour données et résultats (2)

Interfaces pour données et résultats (3)

Gaspar : résultats construits

o Corpus de test

  • 50 mots auxquels sont attachés une centaine d'arbres élémentaires et d'analyse

o Masques graphiques des prototypes construits associés au mot pontage

o Masques graphiques des prototypes construits associés au mot pontage

o Masques graphiques des objets traits construits associés au mot pontage

o Trace graphique d´un pôle de comportements partagés construit sur notre corpus regroupant les adjectifs :

important negligeable

significatif predominant

=> Classe de mots sémantiquement homogènes

o Traces graphiques de classes de mots construites sur corpus de test

o Trace graphique d'un pôle de comportement construit sur deux mots :

" pontage " & " lesion "

Travail sur de " gros corpus "

o Travail sur des séquences NAdj

o Corpus via Lexter

    • A partir de 8754 séquences nominales
    • 586 mots (des noms) extraits
    • 1413 arbres élémentaires associés de type :

Sn -> Nom Adj

Sn -> Adj Nom

Sn -> Adj XX

Sn -> XX Adj

Sn -> Pp(a/é/r) Nom

Sn -> Nom Pp(a/é/r)).

    • Cette première sélection a donc consisté à ne garder que les arbres binaires portant les feuilles Nom/XX et Adj/Pp(a/é/r)

o Résultats Lexter

    • Création de prototypes de toutes pièces (une dizaine)
    • Création de plus de 2000 prototypes par copie et ajustements
    • Examen des partages de dépendances élémentaires : création de 55 pôles

pôles de mots partageant

un arbre sn -> nom adj

adj

(1) occipital bras aisselle epaule

gauche

(2) exces surcharge

ponderal

(3) octobre juillet juin mai mars avril

dernier

(4) besoin tableau

clinique

(5) staff discussion reunion exerese geste reparation resection revascularisation

medico-chirurgical

(6) equipe solution oedeme parenchyme plage coeur tuberculose vascularisation

chirurgical

(7) sommet base

pulmonaire

(8) bloc sillon

auriculo-ventriculaire

(9) expression positivite seringue

electrique

(10) oreillette ventricule retard

droit, gauche

(11) fait amaigrissement etude

recent

(12) sujet individu

asymptomatique

(13) calcification algie

diffus

(14) ouverture prolapsus

mitral

(15) capture fonction conduction

ventriculaire

(16) fistule frere circulation atherosclerose

coronarien

(18) fourche etage

carotidien

(19) foyer fuite

aortique, mitral

(20) pedieux dominance nodule

droit

(21) perforation rupture

septale

(22) frottement reaction epanchement

pericardique

(23) centre soir

meme

(24) gastrectomie alopecie

partiel

(25) cholesterolemie hysterectomie obliteration

total

(26) genou machoire membre siege

inferieur

(27) greffon heterogreffe monopontage

veineux

(29) hematome asthenie

important

(30) triglyceride anatomie ascension

normal

(31) praticien administration milieu

hospitalier

(32) horaire difficulte

particulier

(34) prevention epilepsie epreuve

secondaire

(35) usage decours defibrillation

immediat

(36) vasodilatateur arterite

peripherique

(37) prurit dyspnee

intense

(38) crosse sigmoide

aortique

(39) impasse implication escalade nouvelle

therapeutique

(40) radiographie radio

pulmonaire, thoracique

(41) vitesse marche

rapide

(42) impossibilite raison

technique

(43) acrocyanose nausee

transitoire

(44) reanimation muscle

cardiaque

(45) agregant anti-agregant

plaquettaire

(46) relation lien

etroit

(47) remontee dosage

enzymatique

(48) interpretation interrogatoire analyse

difficile

(49) lacune medecin

present

(51) entrainement sedation medication

adequat

(52) apparition augmentation

brutal

(53) gazometrie ponction hypertension coudure

arteriel

(54) fibrillation sonde pancreatite phase

aigu

pôles de mots partageant

un arbre sn -> adj nom

adj

(17) majorite variabilite

grand

(28) ballon extension

petit

(33) intention symptome

premier

(50) accord repermeabilisation suivi

bon

(55) moyenne natif

circonflexe

  • Les classes produites sont, dans l'ensemble, cohérentes mais ne produisent pas encore des résultats pertinents sur le domaine étudié : certaines classes évidentes ou prévisibles sont mises au jour.
  • La classe de mot associée au pôle n°3 est homogène dans sa relation avec l'adjectif dernier, de même pour la classe n°2 dans sa relation avec l'adjectif ponderal.
  • La classe n°1, où la relation de localisation qualifie un membre ou une région du corps, est elle aussi cohérente ; pour cette classe, on note que les noms qualifiés ne le sont que pour l'adjectif localisant gauche ; à la différence de la classe n°10, celle-ci étant moins homogène.
  • Les classes n°5, 6, 9 regroupent quant à elles des noms sémantiquement plus éloignés.
  • Pour enrichir ce travail de description du comportement des mots, on doit évidemment pouvoir examiner d'autres types de relation binaire. On doit aussi d'examiner en détail tous les types possibles de regroupements de mots : certains mots partagent individuellement plus de comportements avec d'autres mots. L'absence de critères numériques manque aussi pour comparer les fréquences de réalisation des proximités de cooccurrences rencontrées.

Résultats sur Lexter : " Fonction "

Résultats sur Lexter : " Extrasystole "

Résultats sur Lexter : Partage " Extrasystole " & " Fonction "

Le travail sur les gros corpus et les limites de Self

o Lenteur des traitements : plus de 30 heures de traitement sur corpus Lexter

o Self et le système sous-jacent manquent de ressources pour manipuler une grande quantité d'objets

o Les processus sont prêts : seule la "mémoire" leur manque pour exprimer et produire des pistes de sens

"Prolog est né d'un pari : créer un langage de très haut niveau, même inefficace au sens des informaticiens de l'époque. L'efficacité consistait alors à faire exécuter très rapidement par une machine des programmes écrits laborieusement. Le pari était donc de pouvoir écrire rapidement des programmes, quitte à ce que la machine les exécute laborieusement." Colmerauer, préface à Giannesini & al. "Prolog", InterEditions, 1985.