TAL [CLA2T/SYLED & U. DE PARIS 3, Sorbonne nouvelle]

 

 

Textokub : préambule


 

 

Le processus de numérisation engagé depuis plusieurs années a atteint aujourd'hui un niveau de développement très important. Parallèlement, des systèmes d'écriture du document électronique ont été développés (on peut citer par exemple, les normes de balisage de textes et documents dans le domaine du traitement de données textuelles, avec en particulier XML comme point d'orgue actuellement). Une des caractéristiques fondamentales de ce nouveau type de document électronique réside dans sa " plasticité " : c'est-à-dire les possibilités étendues de traitements automatiques sur ce type de texte, de transformations, de types de manipulation.
Cette plasticité est au cœur des applications que l'on souhaite voir se développer pour permettre à l'utilisateur de " bénéficier " de ce potentiel et mener à sa guise les opérations de manipulation qui s'imposent à lui. Cependant, le potentiel associé aux développements des documents électroniques ne se traduit pas encore par des avancées marquantes dans le développement d'outils capables d'exploiter ces fonctionnalités. Très souvent encore, les applications existantes imposent des formats d'encodage particuliers voire protégés qui ne permettent pas d'établir des passerelles entre applications.

Textokub : les états du texte


 
Illustration avec : DISCOURS DE LA MÉTHODE, René DESCARTES (1637)

 

Etat 1: Texte brut


 

Input : texte brut (cf bitty browser ci-contre)
Délimiteurs : .,:;!?/_-"'()[]{}¤$

ressources textométriques internes (Lexico3) : TextNum et Dic
ressources textométriques internes (textokub) : (à venir)


Output/export Textokub (format d'échange in-progress) : segmentation normalisée

Etat 2: Texte brut + partitionnement type Lexico3


 

Passage de Etat1 à Etat2 : intervention manuelle ou automatique (macro Emacs : repérage des parties par regexp)


Input : texte brut + marquage de zone (balises Lexico3) (cf bitty browser ci-contre)
Délimiteurs : .,:;!?/_-"'()[]{}$$

ressources textométriques internes (Lexico3) : TextNum et Dic
ressources textométriques internes (textokub) : (à venir)


Output/export Textokub (format d'échange) : segmentation normalisée

Etat 3 : normalisation XML


 

Passage de Etat1 ou Etat2 à Etat3: semi-automatique


Input : marquage structurel via une DTD (Docbook, TEI...) (cf bitty browser ci-contre)
ressources textométriques internes (Lexico3) : (à venir)
ressources textométriques internes (textokub) : (à venir)


Output/export Textokub (format d'échange) : (à venir)

Etat 4 : segmentation normalisée


 

Input : segmentation normalisée (cf bitty browser ci-contre)
ressources textométriques internes (Lexico3) : (à venir)
ressources textométriques internes (textokub) : (à venir)


Output/export Textokub (format d'échange) : (à venir)

Etat 5 : segmentation normalisée + annotation (étiquetage via Cordial)


 

Input : segmentation normalisée + annotation/typage des formes (cf à venir ci-contre)
ressources textométriques internes (Lexico3) : (à venir)
ressources textométriques internes (textokub) : (à venir)


Output/export Textokub (format d'échange) : (à venir)

Etat 6 : ...


 

Input :
ressources textométriques internes (Lexico3) :
ressources textométriques internes (textokub) :


Output/export Textokub (format d'échange) :

Références et liens


 

Outils