http://www.univ-rennes1.fr/pub/GUTenberg/publicationsPS/24-teilite.ps.gz
numéro 24, juin 1996 (pages 23-151). C'est la traduction
française de TEI Lite : An Introduction to Text Encoding for
Interchange
http://www-tei.uic.edu/orgs/tei/intros/teiu5.tei
.
http://www-tei.uic.edu/orgs/tei/intros/teiu5.tei
.Traduction française de François Role
role@distb.mesr.fr
avec la collaboration de Jacques André
(IRISA/Inria-Rennes) et Michael JordanLa TEI Lite est une version simplifiée des Recommandations de la « Text Encoding Initiative » (TEI) qui s'adressent a tous ceux qui souhaitent échanger des informations stockées sous forme électronique. Elles mettent l'accent sur l'échange des données textuelles, notamment pour les sciences humaines et les études sur les textes littéraires, mais d'autres types de données comme les images et les sons sont également pris en compte.
The ``Text Encoding Initiative (TEI) Guidelines'' are addressed to anyone who wants to interchange information stored in an electronic form. They emphasize the interchange of textual information, but other forms of information such as images and sounds are also addressed.
Ce document est une introduction à la TEI « Text Encoding Initiative » , une DTD de SGML (voir pour une bibliographie plus complète sur SGML et sur la TEI), et en décrit un sous-ensemble connu sous le nom de TEI Lite. Ce que nous décrivons ici peut servir à coder une grande variété de phénomènes couramment rencontrés dans les textes pour en faciliter leur étude par des moyens électroniques et pour en faciliter l'échange entre humanistes utilisant des systèmes informatiques différents. Ce sous-ensemble est entièrement compatible avec la version intégrale de la TEI publiée à Chicago et à Oxford en mai 1994 : TEI P3, Guidelines for Electronic Text Encoding and Interchange. Dans la suite de ce document, cette version intégrale est appelée « les Recommandations » ou parfois P3.
http://www-tei.uic.edu/orgs/tei/intros/teiu5.tei
ftp://info.ox.ac.uk/pub/ota/TEI/doc/teiu5.tei
http://www-tei.uic.edu/orgs/tei/intros/teiu5.html
ftp://info.ox.ac.uk/ota/teilite/
http://www-tei.uic.edu/orgs/tei/p3/dtd/teilite.dtd
ftp://ftp-tei.uic.edu/pub/tei/lite/teilite.dtd
ftp://ota.ox.ac.uk/pub/ota/TEI/dtd/teilite.dtd
http://www.univ-rennes1.fr/pub/GUTenberg/publicationsPS/24-teilite.ps.gz
http://distb.mesr.fr/norm/
La version imprimée de ce texte est disponible dans le Cahier
GUTenberg numéro 24. Il est en vente au prix de 100 FF (port
compris). S'adresser à :
Association GUTenberg
http://www.ens.fr/gut
BP 10, F-93220 Gagny Principal, France
tel/fax : (33 1) 30 87 06 25;
email : tresorerie.gutenberg@ens.fr
Les copyrights de cet article sont ceux de la version originale. Cette traduction est diffusée avec l'aimable autorisation des auteurs que le rédacteur de ces Cahiers GUTenberg tient à remercier ici.
Les Recommandations de la TEI - Text Encoding Inititative (TEI) Guidelines - s'adressent à tous ceux qui souhaitent échanger des informations stockées sous forme électronique. Elles mettent l'accent sur l'échange des données textuelles mais d'autres types de données comme les images et les sons sont également pris en compte. Les Recommandations peuvent être appliquées aussi bien pour créer de nouvelles informations que pour échanger des informations existantes.
Les Recommandations fournissent le moyen de rendre explicites certaines caractéristiques d'un texte, de façon à faciliter le traitement de ce texte par des programmes informatiques pouvant s'exécuter sur des plates-formes différentes. Cette tâche d'explicitation est appelée balisage ou codage. La représentation d'un texte sur un ordinateur met toujours en oeuvre une forme de balisage ou une autre. La TEI tire son origine d'une part de l'anarchie qui règne dans la communauté scientifique en matière de format, et d'autre part du nombre croissant de traitements que les chercheurs opèrent sur les textes sous forme électronique.
Les Recommandations de la TEI s'appuient sur SGML (Standard Generalized Markup Language) pour définir leurs règles de codage (voir la bibliographie sommaire donnée en . SGML est une norme internationale de plus en plus utilisée par les entreprises spécialisées dans le traitement de l'information. Cette norme permet de définir les règles de codage en termes d'éléments, d'attributs et de règles régissant l'utilisation de ces éléments et attributs. L'utilisation que la TEI fait de SGML est ambitieuse, tant par sa complexité que par sa recherche d'universalité; elle n'est cependant pas fondamentalement différente de tous les autres schémas de balisage fondés sur SGML. La preuve en est que tous les outils SGML généralistes sont capables de traiter des textes conformes à la TEI.
La TEI est soutenue par l'Association for Computers and the Humanities, l'Association for Computational Linguistics et l'Association for Literary and Linguistic Computing. Le projet a été en partie financé par le National Endowment for the Humanities américain, la DG XIII de la CEE, la fondation Andrew W. Mellon et le Social Science and Humanities Research Council du Canada. Les Recommandations ont été publiées en mai 1994, après six ans de travaux auxquels ont participé des chercheurs de toute nationalité et de toute discipline.
Au début de cette entreprise, les objectifs généraux de la TEI ont été définis par la résolution finale de la conférence préparatoire tenue au Vassar College de New York en novembre 1987. Cette résolution connue sous le nom de « Principes de Poughkeepsie » fut peu à peu précisée à travers une série de documents de travail. D'après ces documents les Recommandations devaient :
Le monde de la recherche est large et divers. Pour que ces recommandations aient une large audience, il était important de s'assurer que :
Ce document décrit un sous-ensemble utilisable des éléments définis par la TEI et fournit des recommandations en conformité avec les principes directeurs qui viennent d'être rappelés plus haut.
En effectuant un choix parmi les centaines d'éléments définis par la TEI, nous nous sommes efforcés d'identifier un ensemble initial contenant les éléments susceptibles de servir à n'importe quel utilisateur. L'expérience acquise en ne travaillant qu'avec la « TEI Lite » sera d'une grande utilité pour comprendre la DTD TEI complète et pour identifier les parties de cette DTD qui sont nécessaires pour travailler sur un type de texte donné.
Nous pouvons résumer comme suit les objectifs que nous nous sommes assigné s en définissant ce sous-ensemble :
Nous commençons par un bref exemple, reproduit ci-dessous et destiné à illustrer ce qui se passe lorsqu'un passage de prose est saisi sur ordinateur par un opérateur n'ayant qu'une faible notion de ce que représente le balisage, ou du potentiel des textes électroniques. Dans un monde parfait, une telle sortie imprimée pourrait être générée par un lecteur optique très précis. Elle tente de rester fidèle à l'aspect du texte imprimé, en retenant les mêmes coupures de ligne que l'original, en insérant des blancs afin de représenter la disposition des titres originaux et des fins de page, et ainsi de suite. Lorsque certains caractères sont nécessaires mais indisponibles au clavier (tels que la lettre « a » accentuée dans le mot « faàl » , ou le trait long), elle essaie de reproduire leur aspect.
CHAPTER 38 READER, I married him. A quiet wedding we had: he and I, the parson and clerk, were alone present. When we got back from church, I went into the kitchen of the manor-house, where Mary was cooking the dinner, and John cleaning the knives, and I said - 'Mary, I have been married to Mr Rochester this mor- ning.' The housekeeper and her husband were of that decent, phlegmatic order of people, to whom one may at any time safely ommunicate a remarkable piece of news without incurring the danger of having on'es ears pierced by some shrill ejaculation and subsequently stunned by a torrent of wordy wonderment. Mary did look up, and she did stare at me; the ladle with which she was basting a pair of chickens roasting at the fire, did for some three minutes hang suspended in air, and for the same space of time John's knives also had rest from the polishing pro- cess; but Mary, bending again over the roast, said only - 'Have you, miss? Well, for sure!' A short time after she pursued, 'I seed you go out with the master, but I didn't know you were gone to church to be wed'; and she basted away. John, when I turned to him, was grinning from ear to ear. 'I telled Mary how it would be,' he said: 'I knew what Mr Edward' (John was an old servant, and had known his mas- ter when he was the cadet of the house, therefore he often gave him his Christian name) - 'I knew what Mr Edward would do; and I was certain he would not wait long either: and h'es done right, for aught I know. I wish you joy, miss!' and he politely pulled his forelock. 'Thank you, John. Mr Rochester told me to give you and Mary this.' I put into his hand a five-pound note. Without waiting to hear more, I left the kitchen. In passing the door of that sanctum some time after, I caught the words - 'Sh'ell happen do better for him nor ony o' t' grand ladies.' And again, 'If she ben't one o' th' handsomest, sh'es noan faa\l, and varry good-natured; and i' his een sh'es fair beautiful, onybody may see that.' I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and 474 JANE EYRE 475 Mary approved the step unreservedly. Diana announced that she would just give me time to get over the honeymoon, and then she would come and see me. 'She had better not wait till then, Jane,' said Mr Rochester, when I read her letter to him; 'if she does, she will be too late, for our honey moon will shine our life long: its beams will only fade over your grave or mine.' How St John received the news I don't know: he never answered the letter in which I communicated it: yet six months after he wrote to me, without, however, mentioning Mr Rochester's name or alluding to my marriage. His letter was then calm, and though very serious, kind. He has maintained a regular, though not very frequent correspond ence ever since: he hopes I am happy, and trusts I am not of those who live without God in the world, and only mind earthly things.
Cette transcription souffre d'un certain nombre de limitations :
Nous présentons maintenant le même passage avec un codage conforme aux recommandations de la TEI. Comme nous le verrons, ce codage pourrait être étendu de bien des façons, mais au minimum, le codage recommandé par la TEI permet d'effectuer les distinctions suivantes :
<pb n='474'> <div1 type=chapter n='38'> <p>Reader, I married him. A quiet wedding we had: he and I, the parson and clerk, were alone present. When we got back from church, I went into the kitchen of the manor-house, where Mary was cooking the dinner, and John cleaning the knives, and I said ‐ <p><q>Mary, I have been married to Mr Rochester this morning.</q> The housekeeper and her husband were of that decent, phlegmatic order of people, to whom one may at any time safely communicate a remarkable piece of news without incurring the danger of having one's ears pierced by some shrill ejaculation and subsequently stunned by a torrent of wordy wonderment. Mary did look up, and she did stare at me; the ladle with which she was basting a pair of chickens roasting at the fire, did for some three minutes hang suspended in air, and for the same space of time John's knives also had rest from the polishing process; but Mary, bending again over the roast, said only ‐ <p><q>Have you, miss? Well, for sure!</q> <p>A short time after she pursued, <q>I seed you go out with the master, but I didn't know you were gone to church to be wed</q>; and she basted away. John, when I turned to him, was grinning from ear to ear. <q>I telled Mary how it would be,</q> he said: <q>I knew what Mr Edward</q> (John was an old servant, and had known his master when he was the cadet of the house, therefore he often gave him his Christian name) ‐ <q>I knew what Mr Edward would do; and I was certain he would not wait long either: and he's done right, for aught I know. I wish you joy, miss!</q> and he politely pulled his forelock. <p><q>Thank you, John. Mr Rochester told me to give you and Mary this.</q> <p>I put into his hand a five-pound note. Without waiting to hear more, I left the kitchen. In passing the door of that sanctum some time after, I caught the words ‐ <p><q>She'll happen do better for him nor ony o' t' grand ladies.</q> And again, <q>If she ben't one o' th' handsomest, she's noan faàl, and varry good-natured; and i' his een she's fair beautiful, onybody may see that.</q> <p>I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and <pb n='475'> Mary approved the step unreservedly. Diana announced that she would just give me time to get over the honeymoon, and then she would come and see me. <p><q>She had better not wait till then, Jane,</q> said Mr Rochester, when I read her letter to him; <q>if she does, she will be too late, for our honeymoon will shine our life long: its beams will only fade over your grave or mine.</q> <p>How St John received the news I don't know: he never answered the letter in which I communicated it: yet six months after he wrote to me, without, however, mentioning Mr Rochester's name or alluding to my marriage. His letter was then calm, and though very serious, kind. He has maintained a regular, though not very frequent correspondence ever since: he hopes I am happy, and trusts I am not of those who live without God in the world, and only mind earthly things.
La décision de se concentrer sur le texte de Brontë, plutôt que sur la façon dont il a été imprimé dans cette édition spécifique, témoigne d'un problème de codage fondamental : celui de la sélectivité. Un codage rend explicite seulement celles des caractéristiques du texte qui ont une importance pour l'encodeur. Il n'est pas difficile d'imaginer comment on pourrait étendre facilement le codage d'un passage même aussi court que celui-ci. Par exemple :
La méthode recommandée par la TEI pour faire tout ceci est décrite dans le reste de ce document. La TEI dans son ensemble fournit également maintes possibilités, dont nous ne citons que quelques exemples :
Pour connaître les recommandations applicables dans ces différents cas, et pour découvrir de nombreuses autres possibilités, il convient de se reporter au texte complet des recommandations de la TEI.
Le premier exemple a mis l'accent sur la typologie du texte. Nous complétons cette introduction par un exemple en langue française montrant quelques possibilités de la TEI liées à notre langue. Cette fois partons du document original de la figure .
« C'est un mois d'octobre... exceptionnel » , dit Gisèle Dufrène; ils acquiescent, ils sourient, une chaleur d'été tombe du ciel gris-bleu - Qu'est-ce que les autres ont que je n'ai pas ? - ils caressent leurs regards à l'image parfaite qu'ont reproduite Plaisir de France et Votre Maison : la ferme achetée pour une bouchée de pain - enfin, disons, de pain brioché - et aménagée par Jean-Charles au prix d'une tonne de caviar. (`` je n'en suis pas à un million près '', a dit Gilbert), les roses contre les murs de pierre, les chrysanthèmes, les asters, les dahlias `` les plus beaux de toute l'Ile-de-France '', dit Dominique; le paravent et les fauteuils bleux et violet - c'est d'une audace ! - tranchent sur le vert de la pelouse, la glace tinte dans les verres, Houdan baise la main de Dominique, très mince dans son pantalon noir et son chemisier éclatant, les cheveux pâles, mi-blonds, mi-blancs, de dos on lui donnerait trente ans. ...
Si l'on devait coder ce texte, on aurait quelques problèmes plus évidents en français qu'en anglais :
Un texte TEI peut tenir compte de tous ces éléments : ce texte pourrait être codé comme suit :
<p> <q rend=frdqo> C'est un mois d'octobre ... exceptionnel </q>, dit Gisèle Dufrène; ils acquiescent, ils sourient, une chaleur d'été tombe du ciel gris-bleu- <q>Qu'est-ce que les autres ont que je n'ai pas? </q> - ils caressent leurs regards á l'image parfaite qu'ont reproduite <title>Plaisir de France</title> et <title>Votre Maison</title>: la ferme achetée pour une bouchée de pain - enfin, disons, de pain brioché - et aménagée par Jean-Charles au prix d'une tonne de caviar. (<q rend=endqo>je n'en suis pas á un million près</q>, a dit Gilbert), les roses contre les murs de pierre, les chrysanthèmes, les asters, les dahlias <q rend=endqo> les plus beaux de toute l'Ile-de-France</q>, dit Dominique; le paravent et les fauteuils bleux et violet - <q>c'est d'une audace!</q> - tranchent sur le vert de la pelouse, la glace tinte dans les verres, Houdan baise la main de Dominique, très mince dans son pantalon noir et son chemisier éclatant, les cheveux pâles, mi-blonds, mi-blancs, de dos on lui donnerait trente ans. ...
Dans ce texte, on a trois types de citations : celles entre
guillemets français, celles entre guillemets anglais et celles sans
guillemets (par exemple
<q>c'est d'une
audace!</q>
). Pour les deux premiers types, on a délimité la
citation par le couple de balises <q> et </q> et au
moyen de l'attribut rend on a mémorisé la nature des
guillemets utilisés dans le texte imprimé (
frdquo
pour
fr ench d ouble quo te
et
enddquo
pour
en glish d ouble quo
te
) de façon à pouvoir les restituer si besoin est. De même,
nous supposons que c'est lors de l'édition/impression du document que
l'on doit se soucier de la présence d'espaces avant les
points-virgules, deux-points, etc., pas au moment de la saisie ni du
traitement. Aussi codons-nous «
dit Dominique;
» et non
«
dit Dominique_;
» .
Dans les documents SGML, les caractères accentués doivent être
notés à l'aide d' « entités » (voir ) qui
prévoient, par exemple, que « é » soit codé
«
é
» . Le but de ce mécanisme est
d'obtenir un document composé uniquement de caractères appartenant au
jeu ISO 646-IRV (ASCII) de base, donc très facile à transmettre.
Cependant, pour des raisons de lisibilité, nous avons employé les caractères ISO 8859-1 (Latin-1) pour coder les lettres des exemples utilisant le français dans la suite de cette traduction. En réalité, il est techniquement possible d'échanger des documents SGML de cette façon, mais au prix d'une modification de la « déclaration SGML » qui ne peut être effectuée que par un utilisateur expérimenté et qui rend le document moins interchangeable.
Comme il a été dit dans ce Cahier (voir l'article de Jacques André sur les balises), travailler directement sur le codage TEI n'est pas chose naturelle. On écrira donc, dans les exemples qui suivent, des textes lisibles (quitte à imaginer qu'il faille passer un programme de remplacement automatique sur ces textes), comme :
la ferme achetée pour une bouchée de pain - enfin, disons, de pain brioché - et aménagée par Jean-Charles au prix d'une tonne de caviar.
Un autre aspect de l'utilisation du français pour la TEI est celui de la francisation des balises et attributs.
La TEI prévoit des mécanismes pour paramétrer le nom des balises et donc, si on le souhaite, utiliser des balises en français de son choix. Il y a là un compromis entre le confort d'écriture et de lisibilité pour le créateur du document et l'échangeabilité : les textes avec des balises « localisées » ne peuvent évidemment plus être immédiatement interprétés par d'autres. À noter que les tentatives pour franciser les langages de programmation (Basic, Pascal, etc.) n'ont jamais eu de succès, sans doute pour la raison ci-dessus... Mais enfin, avec la TEI c'est possible si on le souhaite.
Notre attitude, ici, a été de garder le nom anglais des balises dans le codage SGML des exemples, mais de proposer en cas d'ambiguïté, un équivalent français dans le texte de l'article.
Enfin, en ce qui concerne les valeurs d'attribut, nous avons parfois utilisé des chaînes « françaises » à la place des chaînes « anglaises » suggérées dans l'original, du moins lorsque la DTD le permettait (par exemple quand le type de l'attribut était CDATA).
L'ensemble de ces noms, anglais et français, se retrouve en .
Tout texte conforme à la TEI comporte
L'en-tête TEI contient des informations analogues à celles que l'on trouve sur la page de titre d'un texte imprimé. Il contient jusqu'à quatre parties :
L'en-tête est décrit avec plus de détails en .
Un texte TEI peut être unitaire (une oeuvre isolée) ou composite (un recueil d'oeuvres, comme une anthologie). Dans un cas comme dans l'autre, le texte peut éventuellement comporter des pièces liminaires ou des annexes. Entre les deux se trouve le corps du texte qui, dans le cas d'un texte composite, peut comporter des groupes, chacun contenant encore des groupes ou des textes.
Un texte unitaire sera codé à peu près comme suit Dès cet exemple, on remarquera que les diverses lignes de ce texte-source sont « indentées » , c'est-à-dire qu'elles sont en retrait les unes par rapport aux autres, ce qui exhibe la structure sous-jacente; ce n'est bien sûr pas une obligation, mais une bonne façon de coder les textes-sources ! :
<TEI.2> <teiHeader> [ informations contenues dans l'en-tête TEI ] </teiHeader>, <text> <front>[ textes préliminaires... ] </front>, <body>[ corps du texte... ] </body> <back> [annexes... ] </back> </text> </TEI.2>
Un texte composite peut également comporter des pièces liminaires et des annexes. Entre les deux, on trouve éventuellement un ou plusieurs groupes de textes, chaque groupe ayant éventuellement ses propres pièces liminaires et annexes. Un texte composite sera donc codé à peu près comme suit :
<TEI.2> <teiHeader> [ informations contenues dans l'en-tête du texte composite ] </teiHeader> <text> <front> [ textes liminaires du texte composite ] </front> <group> <text> <front>[textes liminaires du premier texte ] </front> <body> [corps du premier texte ] </body> <back>[ annexes du premier texte ] </back> </text> <text> <front>[ textes liminaires du deuxième texte ] </front> <body> [ corps du deuxième texte ] </body> <back> [ annexes du deuxième texte ] </back> </text> [ autres textes ou groupes de textes ici ] </group> <back> [ annexes du texte composite ] </back> </text> </TEI.2>
Il est également possible de définir un ensemble de textes TEI, chacun avec son propre en-tête. Un tel recueil est appelé « corpus TEI » (<teiCorpus>), et peut lui-même avoir un en-tête :
<teiCorpus> <teiHeader> [ information contenue dans l'en-tête du corpus ] </teiHeader> <TEI.2> <teiHeader>[ information contenue dans l'en-tête du premier texte ] </teiHeader> <text> [ premier texte du corpus ] </text> </TEI.2> <TEI.2> <teiHeader>[ information contenue dans l'en-tête du deuxième texte ] </teiHeader> <text> [deuxiême texte du corpus ] </text> </TEI.2> </TEICorpus>
Cependant, il n'est pas possible de créer un ensemble de corpus, c'est-à-dire plusieurs éléments <teiCorpus> combinés les uns avec les autres et traités comme un objet unique. Ceci représente une des limites de la version actuelle des recommandations de la TEI.
Dans la suite de ce document, nous discutons surtout de structures de texte simples. Dans chaque cas, la présentation consiste en une courte liste des éléments TEI pertinents, avec une brève définition de chacun, suivies de la définition des attributs spécifiques à cet élément. Dans la plupart des cas, de brefs exemples sont également fournis.
Comme indiqué ci-dessus, un document TEI simple comporte, au niveau textuel, les éléments suivants :
Les éléments spécifiques aux pièces liminaires et annexes sont décrits ci-après, en . Dans la présente section, nous présentons les éléments qui constituent le corps d'un texte.
Le corps d'un texte en prose peut avoir la forme d'une simple suite de paragraphes; les paragraphes peuvent également être regroupés en chapitres, sections, subdivisions, etc. Dans le premier cas, chaque paragraphe est balisé au moyen de <p>. Dans le second cas, l'élément <body> peut être divisé soit en une série d'éléments <div1>, soit en une série d'éléments <div>, l'un ou l'autre pouvant se voir subdivisé à son tour, comme nous le verrons ci-dessous :
Lorsque des subdivisions structurales plus petites que <div1> sont nécessaires, un <div1> peut être divisé en éléments <div2>, et un <div2> en éléments encore plus petits <div3>, etc., jusqu'au niveau <div7>. En présence de plus de sept niveaux de division structurale, il sera nécessaire soit de modifier l'ensemble du balisage TEI pour lui permettre d'accepter <div8>, etc., soit d'employer un élément <div> non numéroté : un <div> peut être subdivisé en de plus petits éléments <div> (le niveau d'imbrication n'est pas limité).
Tous ces éléments sont dotés des trois attributs suivants :
Les attributs id et n, sont de fait d'un intérêt si général qu'ils sont permis sur tout élément dans n'importe quelle DTD de la TEI : ce sont des attributs globaux. D'autres exemples d'attributs globaux définis dans les recommandations TEI Lite sont présentés en .
La valeur de chaque attribut id doit être unique au sein d'un document. Il existe une façon simple de s'assurer que ceci est bien le cas : faire en sorte que la valeur de l'attribut reflète la structure hiérarchique du document.
À titre d'exemple, l'ouvrage Wealth of Nations de Smith contenait dans sa première édition cinq tomes, chacun étant partagé en chapitres, certains chapitres étant eux mêmes subdivisés en parties. Nous pouvons définir les valeurs de l'attribut id pour cette structure comme suit :
<div1 id=WN1 n='I' type='book'> <div2 id=WN101 n='I.1' type='chapter'> ... </div2> <div2 id=WN102 n='I.2' type='chapter'> ... </div2> ... <div2 id=WN110 n='I.10' type='chapter'> <div3 id=WN1101 n='I.10.1' type=part> ... </div3> <div3 id=WN1102 n='I.10.2' type=part> ... </div3> </div2> ... </div1> <div1 id=WN2 n='II' type='book'> .... </div1> ...
Pour prendre un exemple français, les Mémoires d'outre-tombe de Chateaubriand sont divisées en parties, ces dernières étant elles mêmes subdivisées en livres et en chapitres. Nous pouvons définir les valeurs de l'attribut id pour cette structure comme suit :
<div1 id=MOT1 n='I' type='partie'> <div2 id=MOT11 n='I.l' type='livre'> ... </div2> <div3 id=MOT111 n='I.1.1 type='chapitre'> ... </div3> <div2 id=MOT1 n='I.2' type='livre'> ... </div2> ..... <div2 id=MOT1l0 n='I.10' type='livre'> <div 3 id=MOT1101 n='I.10.1' type=chapitre> ... </div3> <div3 id=MOT1102 n='I.10.2 type=chapitre> ... </div3> </div2> ... </div1> <div1 id=MOT2 n='II' type='partie'> ... </div1> .....
Les attributs id et n peuvent être traités au moyen d'un système de numérotation différent : ceci est souvent utile lorsqu'un schéma canonique de référence est employé mais que ce dernier ne concorde pas avec la structure de l'oeuvre. Par exemple, dans un roman partagé en livres, chacun contenant des chapitres, ces derniers étant numérotés séquentiellement dans la totalité de l'oeuvre plutôt qu'à l'intérieur de chaque livre, on pourrait employer une représentation proche de ce qui suit :
<div1 id=TS01 n='1' type='Volume'> <div2 id=TS011 n='1' type='Chapter'> ... <div2 id=TS012 n='2'> ... </div1> <div1 id=TS02 n='2' type='Volume'> <div2 id=TS021 n='3'type='Chapter'> ... <div2 id=TS022 n='4'> ... </div1>
Dans cet exemple, l'oeuvre comporte deux volumes, chacun contenant deux chapitres. Les chapitres sont numérotés conventionnellement de 1 à 4, mais les valeurs spécifiées pour l'attribut id leur permettent d'être considérés comme s'ils étaient également numérotés par 1.1, 1.2, 2.1, 2.2.
Chaque <div>, <div1>, <div2>, etc. peut commencer par un titre ou une tête de chapitre et se terminer (moins couramment) par une formule de fermeture tel que « Fin du Chapitre Premier » . De tels cas peuvent être transcrits par les éléments suivants :
Certains autres éléments éventuellement nécessaires au début ou à la fin d'une division de texte sont présentés dans .
La décision d'inclure ou non les titres et formules dans une transcription appartient au transcripteur individuel. Lorsqu'un titre est tout à fait régulier (par exemple « Chapitre 1 » ) ou a été utilisé comme valeur d'attribut (par exemple <div1 type='chapitre' n=1>), il peut être omis; lorsqu'il contient du texte qui n'apparaît pas ailleurs, il devrait toujours être inclus. Par exemple, le début de Under the Greenwood Tree de Hardy pourrait être codé comme suit :
<div1 id=UGT1 n='Winter' type='Part'> <div2 id=UGT11 n='1' type='Chapter'> <head>Mellstock-Lane</head> <p>To dwellers in a wood almost every species of tree ...
Pour prendre un exemple français du même genre, le début du sixième livre de Notre-Dame de Paris de Victor Hugo pourrait être codé comme suit :
<div1 id=NDP6 n='VI' type='livre'> <div2 id=NDP61 n='1' type='chapitre'> <head>Coup d'oel impartial sur l'ancienne magistrature</head> <p>C'était un fort heureux personnage...
Comme nous l'avons vu plus haut, les paragraphes constituant une division textuelle devraient être balisés à l'aide de la balise <p>. Par exemple :
<body> <p>I fully appreciate Gen. Pope's splendid achievements with their invaluable results; but you must know that Major Generalships in the Regular Army, are not as plenty as blackberries. </p> </body>
Un exemple français équivalent serait :
<body> <p>Nous apprécions beaucoup les résultats qui ont été obtenus et nous en tiendrons compte. Il faut toutefois garder en mémoire... </p> <body>
Diverses balises sont disponibles pour coder la structure des textes poétiques ou dramatiques (les pièces de théâtre, les films, etc.) :
Les exemples suivants représentent le début de textes poétiques dans lequel les strophes et les lignes de vers sont balisés :
<lg n=I> <l>I Sing the progresse of a deathlesse soule,</l> <l>Whom Fate, with God made, but doth not controule,</l> <l>Plac'd in most shapes; all times before the law</l> <l>Yoak'd us, and when, and since, in this I sing.</l> <l>And the great world to his aged evening;</l> <l>From infant morne, through manly noone I draw.</l> <l>What the gold Chaldee, of silver Persian saw,</l> <l>Greeke brass, or Roman iron, is in this one;</l> <l>A worke t'out weare Seths pillars, bricke and stone,</l> <l>And (holy writs excepted) made to yeeld to none,</l> </lg> <lg n=I> <l>Les sanglots longs</l> <l>Des violons</l> <l>De l'automne</l> <l>Blessent mon cœur</l> <l>D'une langueur</l><l>Monotone.</l> </lg>
À noter que l'élément <l> marque les lignes de vers et non les lignes typographiques : le découpage typographique des premières lignes ci-dessus n'a donc pas été rendu de manière explicite par ce codage et pourrait être perdu. L'élément <Ib> décrit en peut être employé pour marquer des lignes typographiques si besoin est.
Quelquefois, surtout dans des textes dramatiques, les lignes de vers sont coupées entre les personnages. La façon la plus facile de coder ce phénomène est d'employer l'attribut part pour indiquer que les lignes ainsi fragmentées sont incomplètes, comme dans cet exemple :
<div1 type ='Act' n='I'><head>ACT I</head> <div2 type ='Scene' n='1'><head>SCENE I</head> <stage rend=italic> Enter Barnardo and Francisco, two Sentinels, at several doors</stage> <sp><speaker>Barn<l part=Y>Who's there? <sp><speaker>Fran<l>Nay, answer me. Stand and unfold yourself. <sp><speaker>Barn<l part=i>Long live the King! <sp><speaker>Fran<l part=m>Barnardo? <sp><speaker>Barn<l part=f>He. <sp><speaker>Fran<l>You come most carefully upon your hour.
Le même mécanisme peut être appliqué à des strophes partagées entre deux locuteurs :
<sp><speaker>First voice</speaker> <lg type=stanza part=I> <l>But why drives on that ship so fast <l>Withouten wave or wind? </lg> <sp><speaker>Second Voice</speaker> <lg part=F> <l>The air is cut away before. <l>And closes from behind. </lg>
L'exemple suivant indique comment coder le dialogue dans une oeuvre de prose comme s'il s'agissait d'une pièce. Il illustre également l'emploi de l'attribut who pour porter un code identifiant le locuteur de la partie de dialogue en question :
<sp who=OPI><speaker>The reverend Doctor Opimiam</speaker> <p>I do not think I have named a single unpresentable fish. <sp who=GRM><speaker>Mr Gryll</speaker> <p>Bream, Doctor: there is not much to be said for bream. <sp who=OPI><speaker>The Reverend Doctor Opimiam</speaker> <p>On the contrary, sir, I think there is much to be said for him. In the first place.... <p>Fish, Miss Gryll -- I could discourse to you on fish by the hour: but for the present I will forbear... </sp>
Les coupures de lignes et de pages peuvent être marquées par les éléments vides suivants :
Ces éléments marquent un endroit précis dans le texte et non une étendue de texte. L'attribut global n devrait être employé pour fournir le numéro de la page ou de la ligne commençant à la balise. En outre, ces deux éléments partagent l'attribut suivant :
Lorsqu'on travaille à partir d'un original paginé, il est souvent utile d'enregistrer sa pagination, ne serait-ce que pour faciliter les corrections ultérieures. L'enregistrement des coupures de ligne peut être utile pour la même raison; le traitement de la division (césure) des mots en fin de ligne dans les originaux imprimés nécessitera donc une certaine considération.
Si la pagination est indiquée pour plus d'une édition, chaque édition peut être identifiée au moyen de l'attribut ed, en fournissant autant de balises que nécessaire. Par exemple, dans le passage suivant nous indiquons l'emplacement des fins de page dans deux éditions différentes (ED1 et ED2) :
<p>I wrote to Moor House and to Cambridge immediately, to say what I had done: fully explaining also why I had thus acted. Diana and <pb ed=ED1 n='475'> Mary approved the step unreservedly. Diana announced that she would <pb ed=ED2 n='485'>just give me time to get over the honeymoon, and then she would come and see me.
Les éléments<pb> et <lb> sont des cas particuliers d'une classe générale d'éléments de type « jalons » qui servent à marquer des points de référence dans un texte. La TEI Lite inclut également un élément générique <milestone> qui n'est pas limité aux cas spéciaux mais peut marquer toutes sortes de point de référence : par exemple une fin de colonne, le début d'un nouveau type de section qui n'est pas balisé autrement, etc. Cet élément a la description et les attributs suivants :
Les noms employés pour designer les types d'unité ainsi que les éditions désignés par ces attributs ed et unit peuvent être choisis librement, mais il convient de les expliciter dans l'en-tête.
L'élément <milestone> peut être employé pour remplacer les autres attributs, ou ces derniers peuvent être employés ensemble; toutefois, il convient d'éviter de les mélanger arbitrairement.
Par expressions ou mots mis en valeur, nous entendons ceux qui sont distingués visuellement du reste du texte, notamment par un changement de police (ou fonte), de style d'écriture ou de couleur d'encre, dans le but d'attirer l'attention du lecteur.
L'attribut global rend peut
être attaché à tout élément et employé autant que nécessaire pour
préciser les détails de la mise en valeur retenue. Par exemple, un
titre en gras pourrait être balisé par
head
rend='gras'
et un titre en italique par
head
rend='italique'
.
Il n'est pas toujours possible ni souhaitable d'interpréter les raisons de telles alternances typographiques dans un texte. Dans ces cas, l'élément<hi> peut être employé pour marquer une séquence de texte mise en évidence, sans formuler d'interprétation quant à son statut.
Dans l'exemple suivant, l'emploi d'un type de caractère distinct pour le sous-titre et pour le nom inclus est enregistré mais ne fait l'objet d'aucune interprétation :
<hi rend=gothic>And this Inventure further witnesseth</hi> that the said <hi rend=italic>Walter Shandy</hi>, merchant, in consideration of the said intended marriage ...
Alternativement, là où les raisons de la mise en valeur peuvent être identifiées de façon sûre, d'autres éléments plus spécifiques sont disponibles :
Dans certains textes, certains éléments (notamment des citations et des gloses) peuvent être mis en évidence soit par une mise en valeur typographique, soit par l'utilisation de guillemets. Dans l'un ou l'autre cas, les éléments <q> et <gloss> (comme nous le verrons dans la section suivante) doivent être employés. Si la présentation physique doit être enregistrée, il convient d'utiliser l'attribut global rend.
Pour illustrer ces types d'éléments, examinons la phrase suivante :
On the one hand the Nibelungenlied is associated with the new rise of romance of twelfth-century France, the romans d'antiquité, the romances of Chrétien de Troyes, and the German adaptations of these works by Heinrich van Veldeke, Hartmann von Aue, and Wolfram von Eschenbach.Si l'on choisit d'interpréter les raisons de la mise en valeur typographique, la phrase pourrait avoir l'aspect suivant :
On the one hand the <title>Nibelungenlied</title> is associated with the new rise of romance of twelfth-century France, the <foreign>romans d'antiquité</foreign>, the romances of Chrétien de Troyes, ...
Si l'on choisit de décrire uniquement l'aspect de l'original, le résultat pourrait être le suivant :
On the one hand the <hi rend=italic>Nibelungenlied</hi> is associated with the new rise of romance of twelfth-century France, the <hi rend=italic>romans d'antiquité</hi>, the romances of Chrétien de Troyes, ...
Tout comme les changements de famille de caractères, les guillemets sont conventionnellement employés pour signaler certains éléments apparaissant dans un texte, le cas le plus fréquent étant la citation. Toutefois, dans la mesure du possible, nous recommandons que l'élément logique sous-jacent soit balisé, plutôt que de se contenter d'enregistrer que des guillemets apparaissent dans le texte, ceci en employant les éléments suivants :
Voici un exemple simple de citation :
Few dictionary makers are likely to forget Dr. Johnson's description of the lexicographer as <q>a harmless drudge.</q>
Pour noter la façon dont une citation a été imprimée (par exemple, sur la même ligne ou dans un pavé typographique distinct), l'attribut rend devrait être employé. Ceci sert également pour indiquer le type de guillemets employés.
Le discours direct interrompu par un narrateur peut être représenté simplement en terminant la citation et en la recommençant après l'interruption, comme dans l'exemple suivant :
<p><q>Who-e debel you?</q> — he at last said — <q>you no speak-e, damme, I kill-e.</q> And so saying, the lighted tomahawk began flourishing about me in the dark.
S'il est nécessaire de faire comprendre que les deux éléments <q> se rapportent au même discours, les attributs de liaison next et prev peuvent être utilisés, comme cela est décrit dans .
Les citations peuvent être accompagnées d'une référence à la source ou au locuteur, au moyen de l'attribut who, que la source soit donnée dans le texte ou non, comme dans l'exemple suivant :
<q who=Wilson>Spaulding, he came down into the office just this day eight weeks with this very paper in his hand, and he says:—<q who=Spaulding>I wish to the Lord, Mr. Wilson, that I was a red-headed man.</q></q>
Cet exemple montre aussi comment les citations peuvent être imbriqué es au sein d'autres citations : un locuteur (Wilson) cite un autre locuteur (Spaulding).
Le créateur du texte électronique doit décider si les guillemets seront remplacés par les balises ou si les balises seront ajoutées et les guillemets retenus. Si les guillemets sont ôtés du texte, l'attribut rend peut être employé pour enregistrer la façon dont ils étaient rendus dans la copie.
Comme dans le cas des mises en valeur, il n'est pas toujours possible ni souhaitable d'interpréter la fonction des guillemets dans un texte de cette façon. Dans de tels cas, la balise <hi rend=quoted> pourrait être employée pour marquer un texte cité, sans formuler d'interprétation quant à son statut.
Les mots ou expressions n'appartenant pas à la langue principale du texte, peuvent être balisés comme tels de deux façons. Si le mot ou l'expression est déjà balisé pour une raison quelconque, l'élément indiqué devrait comporter une valeur pour l'attribut global lang indiquant la langue utilisée. Lorsqu'il n'y a aucun élément applicable, l'élément <foreign> peut être employé en utilisant de nouveau l'attribut lang. Par exemple :
John has real <foreign lang=fra>savoir-faire</foreign>.
Have you read <title lang=deu>Die Dreigroschenoper</title>?
<mentioned lang=fra>Savoir-faire</mentioned> is French for know-how.
The court issued a writ of <term lang=lat>mandamus</term>.
Savoir-faire se dit <mentioned lang=eng>know-how</mentioned> en anglais!
Dans ce dernier exemple, nous supposons que la langue principale du texte est le français.
Comme le montrent ces exemples, l'élément <foreign> ne devrait pas être employé pour baliser des mots étrangers si un autre élément plus spécifique tel que <title>, <mentioned> ou <terme> peut s'appliquer. L'attribut global lang peut être attaché à tout élément, pour montrer qu'il est écrit dans une autre langue que celle du texte dans lequel il se trouve.
Toutes les notes, qu'elles soient imprimées comme des notes de bas de pages, des annotations de fin d'ouvrage ou de chapitre, des notes marginales, ou sous une autre forme, devraient être marquées au moyen du même élément :
Dans la mesure du possible, le corps d'une note devrait être inséré dans le texte au même endroit que celui de son identifiant ou marqueur. Ceci peut ne pas être possible, par exemple dans le cas de notes marginales qu'il peut être difficile d'ancrer à un emplacement exact. Pour la simplicité, il convient de placer les notes marginales avant le paragraphe (ou autre élément) correspondant. Les notes peuvent également être placées dans une division séparée du texte (comme les notes de fin le sont dans des livres imprimés) et liées à la portion pertinente du texte au moyen de leur attribut target.
Si nécessaire, l'attribut n peut être employé pour donner le numéro ou l'identifiant d'une note. Voir le second exemple L'attribut resp devrait être employé de façon systématique pour distinguer les notes d'auteur et d'éditeur, si l'oeuvre comporte ces deux sortes de note; autrement, l'en-tête TEI devrait indiquer leur type.
Voici quelques exemples :
Collections are ensembles of distinct entities or objects of any sort. <note place=foot n=1> We explain below why we use the uncommon term <mentioned>collection</mentioned> instead of the expected <mentioned>set</mentioned>. Our usage corresponds to the <mentioned>aggregate</mentioned> of many mathematical writings and to the sense of <mentioned>class</mentioned> found in older logical writings. </note> The elements ... <p> <note place=margin>Voir le second exemple</note> Si nécessaire, l'attribut ... devrait indiquer leur type. </p>
Il est possible de coder les références croisées, ou des liens explicites entre des points différents d'un même document SGML, au moyen des éléments décrits en . Les références ou liens vers des éléments situés dans un autre document SGML, ou vers des parties de documents non-SGML, peuvent être codés au moyen des pointeurs étendus TEI décrits en . Les liens implicites (telle l'association entre deux textes parallèles ou celle entre un texte et son interprétation) peuvent être codés au moyen des attributs de liaison expliqués en .
Une référence croisée reliant deux endroits situés dans le même document peut être codée au moyen de l'un ou l'autre des éléments suivants :
Ces éléments partagent les attributs suivants :
La différence entre ces deux éléments est que <ptr> est un élément vide qui marque simplement un endroit à partir duquel un lien est à créer, tandis que <ref> peut contenir également du texte - typiquement le texte de la référence croisée elle-même. L'élément <ptr> serait plutôt employé pour une référence croisée signalée par des dispositifs non-verbaux tels qu'un symbole ou une icône, ou dans un texte électronique par un bouton. Il sert également dans des systèmes de production de document, où le logiciel de formatage a la possibilité de générer la forme verbale correcte de la référence croisée.
Les deux formes présentées ci-après, par exemple, sont logiquement équivalentes (en supposant que nous avons documenté ailleurs la forme verbale exacte des références croisées représentées par les éléments <ptr>) :
Voir notamment <ref target=SEC12>la section 12, page 34</ref>. Voir notamment <ptr target=SEC12>.
la valeur de l'attribut target doit être un identifiant SGML dans le document SGML courant. Ceci implique que le passage ou l'expression pointé doit porter un identifiant, et donc être balisé comme un élément d'un certain type. Dans l'exemple suivant, la référence croisée pointe vers un élément <div1> :
... voir notamment <ptr target=SEC12>. ... <div1 id=SEC12><head>En ce qui concerne les identificateurs ...
Puisque l'attribut id est global, tout élément dans un document peut être pointé de la même façon. Dans l'exemple suivant, un paragraphe a été pourvu d'un identifiant pour qu'on puisse pointer sur lui :
... on en reparlera dans <ref target=pspec>la section sur les liens</ref> ... <p id=pspec>Les liens peuvent être composés de n'importe quel type d'éléments ...
Il est possible d'utiliser l'attribut targType pour préciser que l'élément pointé doit être d'un type particulier, comme dans l'exemple qui suit.
... on en reparlera dans <ref target=dspec targType='div1 div2'> la section sur les liens</ref>
Cette référence devrait échouer si l'élément portant l'identifiant dspec n'est ni un <div1> ni un<div2>. à noter cependant que cette vérification ne peut être effectué par un analyseur syntaxique SGML seul puisque ce dernier ne peut que vérifier l'existence d'un élément dspec donné.
L'attribut type peut être employé pour catégoriser le lien représenté par le pointeur, par tout moyen approprié. Les attributs resp et crDate peuvent également être utilisés pour identifier la personne ou l'entité responsable de la création du lien, ainsi que la date de création de ce dernier, comme dans l'exemple suivant :
on en reparlera dans <ref type=xref resp=auto crDate=950521 target=dspec targtype='div1 div2'> la section sur les liens</ref>
Selon toute vraisemblance, ces attributs seront les plus utiles dans des systèmes hypertextes contenant de nombreux pointeurs ayant de multiples fonctions et créés par toute sorte de moyens.
Parfois, la cible d'une référence croisée ne correspond à aucune caractéristique particulière d'un texte, et ne peut donc pas être balisée comme étant d'un certain type d'élément. Si la cible désiré e est simplement un endroit dans le document courant, la façon la plus facile de le marquer est d'introduire un élément <anchor> à l'endroit correspondant. Si la cible est une séquence de mots non balisée autrement, l'élément<seg> (segment) peut être introduit pour la marquer. Ces deux éléments sont décrits comme suit :
Dans l'exemple (imaginaire) suivant, des éléments <ref> ont été employés pour représenter des points dans le texte devant être attachés d'une certaine manière à d'autres parties du texte, un point précis dans le premier cas et une séquence de mots dans le second :
Si je reviens sur <ref target=ABCD>le passage sur lequel je me suis endormi</ref>, je note que <ref target=EFGH>trois mots</ref> ont été entourés de rouge par un précédant lecteur.
Ce codage nécessite que des éléments ayant les identifiants spécifiés ( « ABCD » et « EFGH » dans cet exemple) existent quelque part ailleurs dans le document courant. En supposant qu'aucun élément n'existe déjà pour porter ces identifiants, les éléments <anchor> et <seg> (segment) peuvent être employés :
.... <anchor type=bookmark id='ABCD'> .... ....<seg type=target id='EFGH'> ... </seg> ...
L'attribut type devrait être employé (comme ci-dessus) pour préciser les différents rôles de ces éléments généraux dans un texte. D'autres applications sont présentées ci-après en .
Les éléments <ptr> et <ref> servent uniquement pour des références croisées ou des liens dont les cibles se trouvent dans le même document SGML que leur source. En outre, ils ne peuvent indiquer que des éléments SGML. Les éléments présentés dans la présente section ne sont pas limités de cette façon.
En plus des attributs applicables aux pointeurs présentés dans 8.1 Références croisées simples ci-dessus, ces éléments partagent les attributs supplémentaires suivants, dont le but est de spécifier la cible de la référence croisée ou du lien, au lieu de l'attribut target :
Une spécification complète du langage formel employé pour exprimer la cible des pointeurs étendus TEI dépasserait les limites de ce document; nous nous bornerons donc à indiquer seulement quelques-unes des caractéristiques les plus généralement utiles. Pour plus de détails, il convient de consulter la version complète des recommandations de la TEI.
Un élément <xptr> (ou <xref>) peut indiquer l'ensemble d'un autre document simplement en donnant un nom d'entité comme valeur de l'attribut doc, comme dans cet exemple :
voir <xref doc=P3>The TEI Guidelines, passim</xref>
Cet exemple suppose qu'une entité système ou publique avec le nom P3 a été déclarée. Cette déclaration peut être placée dans le fichier d'extension litemods.ent ou effectuée par une autre méthode spécifique au logiciel auteur SGML employé - voir .
L'attribut from est employé pour préciser un emplacement donné au sein du document spécifié par l'attribut doc. La spécification utilise un langage spécial, appelé syntaxe du pointeur étendu TEI, dont seulement quelques détails sont donnés ici. Dans ce langage, les emplacements sont définis comme une série de pas (steps), chacun identifiant une certaine partie du document, souvent en termes des emplacements identifiés par le pas précédent. Par exemple, on pointera vers la troisième phrase du deuxième paragraphe du chapitre deux en sélectionnant le chapitre deux dans le premier pas, le deuxième paragraphe dans le deuxième pas, et la troisième phrase dans le dernier pas. Un pas peut être défini en termes de concepts SGML (tels que « parent » , « descendant » , « précédant » , etc.) ou, plus vaguement, en termes de structure de texte, de positions de mots ou de caractères. On peut également utiliser une notation étrangère (non-SGML), ou préciser un emplacement dans un graphique en termes de son système de coordonnées.
Les attributs from et to utilisent la même notation. Chacun indique une certaine portion du document cible; le pointeur étendu dans son ensemble indique la section qui commence au début de from et qui se termine à la fin de to.
La première étape du chemin vers un emplacement sera souvent de spécifier l'identifiant d'un certain élément dans le document cible, comme dans cet exemple :
<xptr doc=P3 from='id (SA)'>
Ceci sélectionne l'ensemble de l'élément qui porte l'identifiant SA à l'intérieur de l'entité P3. Si une cible plus fine est nécessaire, d'autres pas peuvent suivre. Les mots clés suivants sont disponibles afin de permettre la sélection d'autres éléments en termes de leur relation avec un élément identifié lors du pas précédent :
Chacun de ces mots clés implique un ensemble particulier d'éléments (un ensemble d'enfants, un ensemble d'ancêtres, un ensemble de descendants, etc.). Afin de préciser lequel des éléments d'un ensemble est pointé, le mot clé peut éventuellement être suivi d'une liste entre parenthèses contenant :
+1
indiquant le premier élément rencontré,
commençant à l'emplacement actuel, et
$-$1
indiquant le dernier), ou le mot clé
all
(tous) indiquant que tous les éléments dans l'ensemble doivent être
pointés;En reprenant l'exemple ci-dessus, la référence suivante sélectionne le troisième élément <p> contenu directement par tout élément ayant l'identifiant SA :
<xptr doc=P3 from='id (SA) child (3 p)'>
De la même manière, en supposant que l'entité P3 est en fait une référence à la version SGML des recommandations de la TEI, alors la référence suivante sélectionne la section 14.2.2 de cette publication qui se trouve être celle où la syntaxe du pointeur étendu est formellement définie :
Pour plus de détails, voir <ref doc=P3 from='id (SA) child (2 div2) child (2 div3)'> TEI Extended pointer syntax definition </ref>
Normalement, l'étendue d'une référence croisée est suffisamment définie par l'attribut from. Pour certains documents cependant, il peut être plus commode de définir une plage de début et une plage de fin. Comme indiqué ci-dessus, l'attribut to est fourni dans ce but. Par exemple :
<xptr doc=P1 from='id (xyz)' to='id (abc)'>
est un pointeur étendu dont la cible est la séquence qui commence au début de l'un quelconque des éléments du document P1 ayant l'identifiant XYZ, et se terminant à la fin de n'importe quel élément du même document ayant l'identifiant ABC. Tout élément se trouvant dans l'intervalle est également inclus, indépendamment de sa structure. Le pointeur est erroné si la fin de ABC précède le début de XYZ.
L'utilisation de cette syntaxe permet la construction facile de spécifications très complexes. Par exemple, la référence suivante sélectionne l'élément <head> le plus proche ayant un attribut lang avec la valeur LAT, et apparaissant avant le début de l'élément ayant l'identifiant SA :
<xptr doc=P3 from='id (SA) preceding (1 head lang lat)'>
Si aucune valeur n'est fournie pour l'attribut doc, on suppose qu'il s'agit du document courant. Ainsi, les références suivantes sont sémantiquement équivalentes. Les deux indiquent l'élément ayant l'identifiant X1 dans le document courant :
<ptr target=X1> <xptr from='id (X1)'>
Les attributs de liaison spécifiques suivants ont été définis pour chaque élément de la DTD TEI Lite :
L'attribut ana (analyse) est destiné à être utilisé lorsqu'un ensemble d'interprétations ou d'analyses abstraites a été défini quelque part dans un document, comme nous le verrons de façon plus détaillée en Par exemple, une analyse linguistique de la phrase « John aime Nancy » pourrait être codé comme suit :
<seg type=sentence ana=SVO> <seg type=lex ana=NP1>John</seg> <seg type=lex ana=VVI>aime</seg> <seg type=lex ana=NP1>Nancy</seg> </seg>
Ce codage implique l'existence, ailleurs dans le document, d'éléments ayant les identifiants SVO, NP1, et VV1 où la signification de ces codes particuliers est expliquée. On notera l'emploi de l'élément <seg> (segment) pour marquer des composants particuliers de l'analyse, différenciés par l'attribut type.
L'attribut corresp (correspondant) est un moyen simple de représenter une certaine forme de correspondance entre deux éléments dans un texte. Par exemple, dans un texte plurilingue, il peut être employé pour relier les diverses traductions d'un même passage, comme dans l'exemple suivant :
<seg lang=FRA id=FR1 corresp=EN1>Jean aime Nancy</seg> <seg lang=ENG id=EN1 corresp=FR1>John loves Nancy</seg>
Le même mécanisme peut être employé à beaucoup d'autres fins. Dans l'exemple suivant, il est employé pour représenter des correspondances anaphoriques entre the show et Shirley, et entre NBC et network :
<p><title id=shirley>Shirley</title>, which made its Friday night debut only a month ago, was not listed on <name id=nbc>NBC</name>'s new schedule, although <seg id=network corresp=nbc>the network</seg> says <seg id=show corresp=shirley>the show</seg> still is being considered.
Les attributs next et previous sont un moyen simple de relier les composants d'un élément discontinu, comme dans l'exemple suivant :
<q id=Q1a next=Q1b>Who-e debel you?</q> &mdash he at last said &mdash <q id=Q1b prev=Q1a>you no speak-e, damme, I kill-e.</q> And so saying, the lighted tomahawk began flourishing about me in the dark.
Le codage d'un texte électronique a beaucoup de points communs avec l'édition d'un manuscrit ou d'un texte destiné à être imprimé. Dans les deux cas, un éditeur consciencieux peut vouloir enregistrer l'état originel de la source ainsi que toutes les corrections éditoriales ou les modifications qui y ont été apportées. Les éléments présentés dans cette section et la suivante fournissent quelques ressources permettant de répondre à ces besoins. Le couple d'éléments suivant peut être employé pour marquer une « correction » , c'est-à-dire des changements éditoriaux introduits aux endroits où le rédacteur croît rencontrer une erreur dans l'original :
Le couple d'éléments suivant peut être employé pour marquer la normalisation, c'est-à-dire des changements éditoriaux introduits pour des raisons de cohérence ou pour transcrire le texte sous une forme plus lisible pour un lecteur moderne :
Par exemple, la lecture :
comporte selon Gifford... for his nose was as sharp as a pen and a' table of green feelds
Donc, la conjecture de Gifford pourrait être codée ainsi :
... for his nose was as sharp as a pen and <reg sic="a'">he</reg> <corr sic='table' ed=Gifford>babbl'd</corr> of green <reg sic='feelds'>fields</reg>
Outre la correction ou la normalisation des mots et des expressions, les rédacteurs et les transcripteurs peuvent aussi ajouter du texte dans des passages lacunaires, ôter du texte, ou encore transcrire du texte effacé ou biffé dans l'original. En outre, un texte donné peut être particulièrement difficile à transcrire car difficile à déchiffrer dans la page. Les éléments suivants peuvent être employés pour enregistrer de tels phénomènes :
Ces éléments peuvent être employés pour enregistrer des changements effectués par un éditeur, par le transcripteur ou (dans la source manuscrite) par l'auteur ou le scribe. Par exemple, si la source d'un texte électronique est :
Les éléments suivants sont proposés pour pour noter des interventions du transcripteur.alors il pourrait être souhaitable de corriger l'erreur évidente, tout en enregistrant l'effacement du deuxième pour superflu, ainsi :
Les éléments suivants sont proposés pour <del hand=LB>pour</del> noter des interventions du transcripteur.
La valeur d'attribut LB sur l'attribut hand indique que LB a corrigé la duplication du mot pour.
Si la source était :
Les éléments suivants proposés pour pour noter des interventions du transcripteur.
(si le verbe avait été oublié par inadvertance), alors le texte lui-même pourrait se lire :
Les éléments suivants <add hand=LB>sont</add> proposés pour <del hand=LB>pour</del> noter des interventions du transcripteur.
Ces éléments ne sont pas limités aux changements faits par un éditeur; ils peuvent aussi être employés pour enregistrer des changements dus à l'auteur dans des manuscrits. Un manuscrit {(cité par Almuth Grésillon, Éléments de critique génétique, PUF, 1994 p. 132-133)} dans lequel Proust a d'abord écrit « Bientôt la lumière sous la porte s'éteint et il retombe dans l'obscurité. » puis biffé « il retombe » et inséré en-dessous « tout rentre » pourrait être codé ainsi :
Bientôt la lumière sous la porte s'éteint et <del hand=PROUST type=overstrike>il retombe</del> <add hand=PROUST place=infralinear> tout rentre</add> dans l'obscurité.
De la même manière, les éléments <unclear> et <gap> peuvent être employés ensemble pour indiquer l'omission d'un passage illisible; l'exemple suivant montre aussi l'emploi de <add> pour une correction conjecturale :
One hundred & twenty good regulars joined to me <unclear><gap reason='indecipherable'></unclear> & instantly, would aid me signally <add hand=ed>in?</add> an enterprise against Wilmington.
L'élément <del> identifie les passages qui sont transcrits dans le texte électronique bien qu'ils soient marqués comme étant effacés, tandis que <gap> marque l'emplacement d'un passage qui est omis du texte électronique, qu'il soit lisible ou non. Un corpus contenant des passages en plusieurs langues, par exemple, pourrait omettre des citations longues dans des langues étrangères :
<p> ... An example of a list appearing in a fief ledger of <name type=place>Koldinghus</name> <date>1611/12</date> is given below. It shows cash income from a sale of honey.</p> <q><gap desc='quotation from ledger' reason='in Danish'></q> <p>A description of the overall structure of the account is once again ... </p>
D'autres corpus (notamment ceux qui ont été créés avant l'emploi généralisé du lecteur optique) omettent systématiquement les schémas et les parties mathématiques :
<p>En avant du puzzle ... Un des classeurs est ouvert sur une page en partie couverte d'équations transcrites d'une écriture fine et serrée: <gap desc='demonstration morphisme' reason='maths'> </p>
La TEI définit des éléments pour un grand nombre de types de données spéciales que l'on peut rencontrer presque partout dans des textes de toutes sortes. Ces types de données peuvent être d'un intérêt particulier dans tout un éventail de disciplines. Ils se réfèrent tous à des objets externes au texte lui-même (noms de personnes et de lieux, chiffres, dates). Ils posent toutefois des problèmes particuliers à beaucoup d'applications de traitement du langage naturel (NLP), à cause des formes variées sous lesquelles ils peuvent apparaître dans les textes. Les éléments décrits dans le présent chapitre, en rendant ces types de données explicites, facilitent le traitement des textes qui les contiennent.
Une « chaîne de référence » (referring string) est une expression qui se réfère à une personne, un endroit, un objet donné, etc. Deux éléments sont fournis pour marquer de telles chaînes :
L'attribut type est employé pour distinguer (par exemple) entre des noms de personnes, d'endroits ou d'organisations, dans les cas où cela est possible :
<q>My dear <rs type=person>Mr. Bennet</rs>, </q> said his lady to him one day, <q>have you heard that <rs type=place>Netherfield Park</rs> is let at last?</q>
It being one of the principles of the <rs type=organization>Circumlocution Office</rs> never, on any account whatsoever, to give a straightforward answer, <rs type=person>Mr Barnacle</rs> said, <q>Possibly.</q>
Comme le montrent les exemples suivants, l'élément <rs> peut être employé pour toute référence à une personne, un endroit, etc., qui n'est pas forcément un nom propre ou une proposition substantive :
<q>My dear <rs type=person>Mr. Bennet</rs>,</q> said <rs type=person>his lady</rs> to him one day...
<q>Peu après son installation <rs type=lieu>rue Simon- Crubelier</rs>, <rs type=personne>Maurice Réol</rs>, qui était <rs type=metier>aide-rédacteur</rs> à la <rs type=organisation>CAMPA</rs> ...
L'élément <name>, au contraire, est prévu pour le cas spécial des chaînes de référence contenant uniquement des noms propres; il peut être utilisé de la même façon que l'élément <rs>, ou imbriqué au sein de celui-ci si une chaîne de référence contient un mélange de noms communs et de noms propres.
Le simple fait de baliser un objet en tant que « nom » ne suffit généralement pas pour permettre le traitement automatique des noms de personnes afin d'obtenir les formes canoniques généralement requises à des fins de référence. Un nom tel qu'il apparaît dans le texte peut être orthographié de façon incohérente, ou être partiel ou flou. Qui plus est, des particules de noms tel que van ou de la peuvent ou non être incluses dans la forme de référence d'un nom. Ceci dépend de la langue et du pays de celui qui porte le nom en question.
Les attributs suivants sont également disponibles pour ces éléments et pour des éléments similaires, afin de surmonter ces difficultés :
L'attribut key peut être un moyen utile pour rassembler toutes les références se rapportant à la même personne ou au même emplacement éparpillés à travers un document :
<q>My dear <rs type=person key=BENM1>Mr. Bennet</rs>, </q> said <rs type=person key=BENM2>his lady</rs> to him one day, <q>have you heard that <rs type=place key=NETP1>Netherfield Park</rs> is let at last?</q>
Cette utilisation devrait être distinguée du cas de l'attribut reg (régularisation), qui permet de marquer la forme standard d'une chaîne de référence, comme ci-dessous :
<name type=person key=WADLM1 reg='de la Mare, Walter'> Walter de la Mare </name> was born at <name key=Ch1 type=place>Charlton</name>, in <name key=KT1 type=county>Kent</name>, in 1873.
On peut aussi baliser de façon plus détaillée les composants de noms propres, en utilisant le jeu de balises supplémentaires traitant les noms et les dates.
Les balises suivantes permettent un codage plus détaillé des dates et de l'heure :
aaaa-mm-jj
;L'attribut value indique une forme normalisée pour la date ou l'heure, au moyen d'un format reconnu tel que celui qui est prescrit par la norme ISO 8601. Les dates ou les heures partielles (par exemple « 1990 » , « septembre 1990 » , « autour de midi » ) peuvent habituellement être exprimées en omettant simplement une partie de la valeur donnée; ou bien, les dates ou les heures imprécises (par exemple « début août » , « entre dix et douze heures » ) peuvent être exprimées comme une plage de dates ou d'heures. Si l'une ou l'autre extrémité de la plage d'heure ou de date est connue avec certitude (par exemple, « avant 1230 » , « quelques jours après Hallowe'en » ), l'attribut exact peut être employé pour le préciser.
Exemples :
<date value='1980-02-21'>21 Feb 1980</date> <date value='1990'>1990</date> <date value='1990-09'>September 1990</date>
Given on the <date value='1977-06-12'>Twelfth Day of June in the Year of Our Lord One Thousand Nine Hundred and Seventy-seven of the Republic the Two Hundredth and first and of the University the Eighty-Sixth.</date>
<l>specially when it's nine below zero <l>and <time value='15:00'>three o'clock in the afternoon</time>
<p>C'était une belle matinée de la <date value='1323-11'>fin novembre</date> ...
Les nombres peuvent être écrits en lettres ou en chiffres
(
vingt et un
,
XXI
et
21
) et
leur présentation dépend de la langue (par exemple 5th en
anglais devient
5.
en grec; 123,456.78 en
anglais équivaut à
123.456,78
en français (toutefois les codes
typographiques français recommandent aujourd'hui d'écrire plutôt
123 456,78
). Dans des applications de traitement
du langage naturel ou de traduction automatique, il est souvent utile
de les différencier par rapport à d'autres parties plus
« lexicales » du texte. Dans d'autres applications, la capacité
d'enregistrer une valeur numérique en utilisant une notation standard
est importante. L'élément <num> fournit cette possibilité :
Par exemple :
<num value='33'>xxxiii</num> <num type=cardinal value='21'>twenty-one</num> <num type=percentage value='10'>ten percent</num> <num type=percentage value='10'>10%</num> <num type=ordinal value='5'>5th</num>
De même que les noms, les dates et les nombres les abréviations peuvent être transcrites telles quelles ou sous une forme développée; elles peuvent être soit non-balisées, soit codées au moyen de l'élément suivant :
L'élément <abbr> est utile pour distinguer les éléments semi-lexicaux tels que des acronymes ou des termes de jargon :
We can sum up the above discussion as follows: the identity of a <abbr>CC</abbr> is defined by that calibration of values which motivates the elements of its <abbr>GSP</abbr>;
Every manufacturer of <abbr>3GL</abbr> or <abbr>4GL</abbr> languages is currently nailing on <abbr>OOP</abbr> extensions
Le brevet <abbr>BBR</abbr> de justification des lignes a été repris par la <abbr>CII</abbr> ...
L'attribut type peut être employé pour distinguer des types d'abréviation selon leur fonction, et l'attribut expan peut être employé pour fournir un développement :
Le <name><abbr type=titre expan='Docteur'>Dr.</abbr> <abbr type=initiale expan='Jean'>J.</abbr> Transen</name> est le <abbr type=fonction expan='Président directeur général'>Pdg</abbr> de la <abbr type=acronyme expan='Compagnie des Compteurs Informatisés'>C2I</abbr>.
Cet élément est aussi particulièrement utile lorsqu'on transcrit des documents manuscrits contenant de fréquentes abréviations.
L'élément <address> est employé pour noter une adresse postale de n'importe quelle sorte. Il contient un ou plusieurs éléments <addrLine>, un pour chaque ligne de l'adresse.
Voici un exemple simple :
<address> <addrLine>Rédaction des Cahiers GUTenberg</addrLine> <addrLine>Irisa/Inria, campus de Beaulieu</addrLine> <addrLine>F-35042 Rennes cedex</addrLine> <addrLine>France</addrLine> </address>
Les parties individuelles d'une adresse peuvent être subdivisées au moyen de l'élément <name> expliqué ci-dessus en 11.1 Noms et chaînes de caractère de référence.
<address> <addrLine>Rédaction des Cahiers GUTenberg</addrLine> <addrLine>Irisa/Inria, campus de Beaulieu</addrLine> <addrLine><name type=code>F-35042</name> <name type=city>Rennes cedex</name <addrLine><name type=country>France</name></addrLine> </address>
L'élément <list> est utilisé pour marquer toutes sortes de listes. Une liste est une séquence d'items, qui peuvent être ordonnés, non ordonnés ou présentés sous forme de glossaire. Chaque élément peut être précédé d'une étiquette (dans une liste de type glossaire, cette étiquette est le terme défini) :
Les éléments de la liste sont balisés par <item>. Le premier <item> peut, en option, être précédé par un élément <header>, qui fournit un en-tête à la liste. La numérotation d'une liste peut être omise (si elle est reconstituable), ce qui est indiqué au moyen de l'attribut n sur chaque entrée de la liste ou (rarement) balisé comme un contenu au moyen de l'élément <label>. Les listes suivantes sont par conséquent toutes équivalentes :
<list> <head>Une petite liste:</head> <item n=1>premier élément de la liste;</item> <item n=2>second élément;</item> <item n=3>dernier élément.</item> </list> <list> <head>Une petite liste:</head> <label>1</label> <item>premier élément de la liste;</item> <label>2</label> <item>second élément;</item> <label>3</label> <item>dernier élément.</item> </list>
Les styles ne doivent pas être mélangés dans la même liste.
Un tableau simple à deux colonnes peut être traité comme une liste
de type glossaire, balisée
list type =gloss
. Ici, chaque élément comprend un
terme et une glose,
marqués par <label> et <item> respectivement. Ceux-ci
correspondent aux éléments <term> et <gloss> que l'on
peut rencontrer n'importe où dans un texte de prose.
<list type=gloss> <head>Vocabulary</head> <label lang=enm>nu</label> <item>now</item> <label lang=enm>lhude</label> <item>loudly</item> <label lang=enm>bloweth</label> <item>blooms</item> <label lang=enm>med</label> <item>meadow</item> <label lang=enm>wude</label> <item>wood</item> <label lang=enm>awe</label> <item>ewe</item> <label lang=enm>lhouth</label> <item>lows</item> <label lang=enm>sterteth</label> <item>bounds, frisks</item> <label lang=enm>verteth</label> <item lang=lat>pedit</item> <label lang=enm>murie</label> <item>merrily</item> <label lang=enm>swik</label> <item>cease</item> <label lang=enm>naver</label> <item>never</item> </list>
Lorsque la structure interne d'un élément de la liste est plus complexe, il peut être préférable de considérer la liste comme une table, entité pour laquelle un balisage spécial est défini dans un jeu de balises TEI supplémentaire.
Les éléments d'une liste peuvent bien sûr contenir eux-mêmes des listes de toute sorte jusqu'au niveau de profondeur requis. Ici, par exemple, une liste de type glossaire contient deux éléments, chacun d'entre eux étant lui-même une liste simple :
<list type=gloss><label>EVIL</label> <item><list type=simple> <item>I am cast upon a horrible desolate island, void of all hope of recovery.</item> <item>I am singled out and separated as it were from all the world to be miserable.</item> <item>I am divided from mankind &mdash a solitaire; one banished from human society.</item> </list> <!-- end of first nested list --></item> <label>GOOD</label> <item><list type=simple> <item>But I am alive; and not drowned, as all my ship's company were.</item> <item>But I am singled out, too, from all the ship's crew, to be spared from death...</item> <item>But I am not starved, and perishing on a barren place, affording no sustenances....</item> </list><!-- end of second nested list --></item> </list><!-- end of glossary list -->
Une liste ne doit pas nécessairement être affichée sous forme de liste. Par exemple :
On those remote pages it is written that animals are divided into <list rend="run-on"><item n='a'>those that belong to the Emperor,<item n='b'> embalmed ones, <item n='c'> those that are trained, <item n='d'> suckling pigs, <item n='e'> mermaids, <item n='f'> fabulous ones, <item n='g'> stray dogs, <item n='h'> those that are included in this classification, <item n='i'> those that tremble as if they were mad, <item n='j'> innumerable ones, <item n='k'> those drawn with a very fine camel's-hair brush, <item n='l'> others, <item n='m'> those that have just broken a flower vase, <item n='n'> those that resemble flies from a distance.</list>
Les listes de références bibliographiques devraient être balisé es au moyen de l'élément <listBibl> décrit dans la section suivante.
Il est souvent utile de distinguer les citations bibliographiques aux endroits où elles apparaissent dans les textes qui sont transcrits à des fins scientifiques, ne serait-ce que pour s'assurer de leur formatage correct lors de l'impression. L'élément <bibl> est fourni dans ce but :
Lorsque les composants d'une référence bibliographique doivent être distingués, les éléments suivants peuvent être employés selon les besoins. Il est généralement utile de marquer au moins les parties (tels les titres d'articles, de livres ou de journaux) qui nécessitent un formatage spécial. Les autres sont prévus pour les cas où on attache de l'importance à ces détails.
Par exemple, l'annotation éditoriale suivante
He was a member of Parliament for Warwickshire in 1445, and died March 14, 1470 (according to Kittredge, Harvard Studies 5. 88ff).pourrait être transcrite comme suit :
He was a member of Parliament for Warwickshire in 1445, and died March 14, 1470 (according to <bibl><author>Kittredge</author>, <title>Harvard Studies</title> <biblScope>5. 88ff</biblScope></bibl>).
Dans le cas des listes de citations bibliographiques, l'élément <listBibl> devrait être utilisé; il peut contenir un ensemble d'éléments <bibl>. Pour un exemple, se reporter à la liste donnée en .
Les tableaux représentent un défi considérable pour tout système de traitement de texte, mais des tableaux simples, au moins, apparaissent dans un si grand nombre de textes que même le jeu de balises simplifié présenté ici doit comporter un balisage pour les tableaux. Les éléments suivants sont donc proposés :
Par exemple, Defoe utilise des tables de mortalité comme celle qui suit dans son Journal of the Plague Year, pour montrer la montée et la descente de l'épidémie :
<p>It was indeed coming on amain, for the burials that same week were in the next adjoining parishes thus:— <table rows=5 cols=4> <row role='data'> <cell role='label'>St. Leonard's, Shoreditch</cell> <cell>64</cell> <cell>84</cell> <cell>119</cell></row> <cell role='label'>St. Botolph's, Bishopsgate</row> <cell>65</cell> <cell>105</cell> <cell>116</cell></row> <cell role='label'>St. Giles's, Cripplegate</row> <cell>213</cell> <cell>421</cell> <cell>554</cell></row> </table> <p>This shutting up of houses was at first counted a very cruel and unchristian method, and the poor people so confined made bitter lamentations. ... </p>
De même, Perec dans La vie mode d'emploi utilise-t-il des tables pour montrer des « jeux » :
<p>Il résolvait avec une facilité déconcertante: les d'un-mot-à-l'autre <table rows=5 cols=3> <row><cell>VIN</cell><cell>HOMME</cell><cell>POéME</cell></row> <row><cell>VAN</cell><cell>GOMME</cell><cell>POéTE</cell></row> <row><cell>VAU</cell><cell>GEMME</cell><cell>PRæTE</cell></row> <row><cell>EAU</cell><cell>FEMME</cell><cell>PROTE</cell></row> <row><cell> </cell><cell> </cell><cell>PROSE</cell></row> </table> les problèmes mathématiques ... </p>
Tous les composants d'un document ne sont pas nécessairement textuels. Le texte le plus simple contient souvent des diagrammes ou des illustrations, sans parler des documents dans lesquels images et textes sont inextricablement mêlées, ou de produits électroniques dans lesquels les deux sont complémentaires.
Le codeur peut simplement enregistrer la présence d'un graphique dans un texte, éventuellement avec une description brève de son contenu, en utilisant les éléments décrits dans cette section. Les mêmes éléments peuvent aussi être employés pour insérer des versions numérisés du graphique au sein du document électronique.
Toute information textuelle accompagnant le graphique, tel qu'un titre ou une légende, peut être incluse dans l'élément <figure>, à l'intérieur d'un élément <head> et d'un ou plusieurs éléments <p>. Il en va de même pour tout texte figurant dans le graphique lui-même. Il est fortement recommandé d'inclure une description en texte libre de l'image, sous forme d'un élément <figDesc>. Cette description sera utilisée pour les applications incapables d'afficher le graphique et permettra de rendre le document accessible aux lecteurs malvoyants (de tels textes ne sont pas normalement considérés comme faisant partie du document lui-même).
Dans leur utilisation la plus simple, ces éléments servent à marquer l'emplacement d'un graphique, comme dans l'exemple suivant :
<pb n=412> <figure><figure> <pb n=413>
À noter que la balise de fin ne peut être omise, bien que l'élément n'ait aucun contenu. Plus habituellement, un graphique aura au moins un titre servant à l'identifier, ce dernier étant codé au moyen de l'élément <head>. De plus, il est souvent utile d'inclure une brève description de l'image, comme dans l'exemple suivant :
<figure> <head>Mr Fezziwig's Ball</head> <figdesc>A Cruikshank engraving showing Mr Fezziwig leading a group of revellers.</figdesc> </figure>
Lorsqu'une version numérisée du graphique est disponible, il est nettement préférable de l'insérer à l'endroit approprié du document. Les éléments graphiques tels que les images sont généralement stockés dans des entités (des fichiers) distinctes de ceux qui contiennent le texte du document et au moyen d'une notation différente (format de stockage). La DTD de TEI Lite supporte des graphismes codés au moyen des normes CGM, TIFF et JPEG, sous les noms cgm, tiff, et jpeg dans la notation SGML. Néanmoins, d'autres notations peuvent être employées, pourvu qu'une déclaration de notation appropriée soit ajoutée dans la DTD. Pour plus d'informations concernant la déclaration d'une NOTATION en SGML, se reporter au chapitre traitant des tableaux, formules et graphismes dans la TEI P3, ou dans tout ouvrage de référence traitant de SGML.
Quel que soit le format employé pour coder l'image, celle-ci peut
être insérée dans le document par le même procédé. La première phase
consiste à déclarer une entité SGML d'un type particulier, précisant
le nom de l'entité elle-même, un identifiant externe (tel qu'un nom de
fichier), et la notation employée. Par exemple, en supposant que
l'image numérisée « Le Bal de Mr Fezziwig » soit au format TIFF,
dans le fichier
fezzi.tff
, une déclaration d'entité
semblable à celle qui est présentée ci-dessous serait nécessaire :
<!ENTITY fezziPic SYSTEM "fezzi.tff" NDATA tiff>
Toutes les déclarations de ce type doivent être traitées avant le
document SGML lui-même; avec la DTD de la TEI Lite, ceci est possible
en incluant ces déclarations dans un fichier nommé
litedecls.ent
ou un fichier quelconque associé à
l'identifiant public suivant :
-//TEI U5-1995//DTD TEI Lite 1.0 Extensions//EN
Une fois que cette déclaration est effective, l'insertion de l'image numérisée à l'emplacement voulu dans le document ne nécessite que l'insertion d'une valeur pour l'attribut entity de l'élément <figure> :
<figure entity=fezziPic> <head>Mr Fezziwig's Ball</head> <figdesc>A Cruikshank engraving showing Mr Fezziwig leading a group of revellers.</figdesc> </figure>
On dit souvent que le balisage constitue une forme d'interprétation ou d'analyse. Tandis qu'il est certainement difficile, voire impossible, de distinguer de façon certaine entre les informations « objectives » et « subjectives » d'une manière universelle, il reste vrai que les jugements concernant les dernières sont plus sujets à controverse que les premières. De nombreux chercheurs préfèrent donc présenter de telles interprétations uniquement lorsqu'il est possible d'informer le lecteur qu'il s'agit de parties plus sujettes à caution que le reste du balisage. Cette section décrit certains des éléments fournis par la TEI pour répondre à ce besoin.
Typiquement, l'interprétation porte sur l'ensemble d'un texte, sans prendre particulièrement en compte les autres unités structurales. Un préliminaire utile avant toute interprétation intensive consiste donc à segmenter le texte dans des unités discrètes et identifiables, chacune pouvant ensuite recevoir une étiquette servant de « référence canonique » . Afin de faciliter ce genre d'application, ces unités ne doivent pas se croiser, ni être imbriquées les unes dans les autres. Il est possible de les représenter de façon commode en utilisant l'élément suivant :
Comme le nom suggère, l'élément <s> est le plus souvent employé (au moins dans les applications linguistiques) pour marquer des phrases orthographiques, c'est-à-dire des unités définies par des caractéristiques orthographiques telles que la ponctuation. Par exemple, le passage pris dans Jane Eyre cité dans le premier chapitre pourrait être divisé en s-units comme suit :
<pb n='474'> <div1 type=chapter n='38'> <p><s n=001>Reader, I married him.</s> <s n=002>A quiet wedding we had:</s> <s n=003>he and I, the parson and clerk, were alone present.</s> <s n=004>When we got back from church, I went into the kitchen of the manor-house, where Mary was cooking the dinner, and John cleaning the knives, and I said ‐</s> <p><q><s n=005>Mary, I have been married to Mr Rochester this morning.</s></q>...
Les balises de fin utilisées ci-dessus ne sont pas strictement nécessaires, car les éléments <s> ne peuvent pas s'emboîter : le début d'un élément <s> implique que le précédent est terminé. Quand les s-units sont balisés comme indiqué ci-dessus, il est conseillé de baliser le texte tout entier, afin que chaque mot du texte analysé soit contenu dans exactement un élément <s>, dont l'identifiant peut alors servir de référence unique. Si les identifiants employés sont uniques au sein du document, alors l'attribut id pourrait être utilisé de préférence à l'attribut n employé dans l'exemple ci-dessus.
Un élément de segmentation plus polyvalent, le <seg> a déjà a été présenté : il sert à identifier les cibles de références croisées et de liens hypertexte qui ne disposent pas par ailleurs d'éléments d'identification - se reporter à 8 Références croisées et liens. Cet élément identifie une quelconque expression de type « phrase » à laquelle le codeur peut attribuer un type spécifié par l'utilisateur, ainsi qu'un identifiant unique; il peut ainsi servir à baliser les caractéristiques textuelles pour lesquelles rien n'a été prévu dans la version publiée des recommandations de la TEI.
Par exemple, les Recommandations ne fournissent aucun élément <apostrophe> pour marquer les parties d'un texte littéraire où le narrateur s'adresse au lecteur (ou à l'auditeur) directement. Une approche possible serait de considérer ces cas comme des exemples de l'élément <q>, distingués des autres par une valeur appropriée de l'attribut who. Cependant, une solution peut-être plus simple (et certainement plus générique) serait d'employer l'élément <seg> comme suit :
<div1 type=chapter n='38'> <p><seg type='apostrophe'>Reader, I married him.</seg> A quiet wedding we had: ...
L'attribut type de l'élément <seg> peut prendre n'importe quelle valeur, donc peut servir à enregistrer les phénomènes du genre « expression » de toute sorte; il est souhaitable d'enregistrer les valeurs employées ainsi que leur signification dans l'en-tête.
Un élément <seg> d'un type donné (à la différence de l'élément <s> auquel il ressemble superficiellement) peut s'emboîter à l'intérieur d'un élément <seg> du même type ou non. Cela permet la représentation de structures relativement complexes; certains exemples ont été donnés dans 8.3 Attributs de liaison ci-dessus. Cependant, puisqu'il doit respecter la contrainte imposée par SGML qui est que les éléments doivent être emboîtés correctement et ne doivent pas se chevaucher, cet élément ne permet pas d'associer une interprétation à des segments arbitraires d'un texte éventuellement sans tenir compte de la hiérarchie du document. Il nécessite également que l'interprétation elle-même soit représentée par une valeur unique codée au sein de l'attribut type.
Aucune de ces contraintes ne s'applique à l'élément <interp>, qui comporte de puissantes caractéristiques permettant de coder d'une manière assez simple des interprétations relativement complexes.
Ces éléments permettent au codeur de préciser à la fois la classe d'une interprétation, et l'instance particulière de cette classe impliquée par l'interprétation. Ainsi, tandis qu'avec <seg> nous pouvons dire simplement que quelque chose est une apostrophe, avec <interp> nous pouvons dire qu'il s'agit d'une instance (apostrophe) d'une plus grande classe (de figures rhétoriques).
De plus, <interp> est un élément vide qui doit être relié au passage auquel il s'applique, soit au moyen de l'attribut ana présenté dans 8.3 Attributs de liaison, ci-dessus, soit au moyen de son propre attribut inst. Cela signifie que toute sorte d'analyse peut être représentée, sans que l'on soit obligé de respecter la hiérarchie SGML du document; cette approche facilite également le regroupement d'analyses d'un type particulier. Un élément spécifique <interpGrp> est fourni à cette fin.
Par exemple, supposons que l'on désire baliser des caractéristiques textuelles variées telles des thèmes, des sujets ou des figures rhétoriques, ainsi que les emplacements des diverses scènes d'un récit. Par exemple, diverses parties de notre passage spécimen puisé dans Jane Eyre pourraient être associées à des figures rhétoriques comme l'apostrophe, l'hyperbole et la métaphore, accompagnées de références à des églises, des serviteurs, la cuisine, la poste ou des lunes de miel, et illustrées par des scènes à l'église, dans la cuisine, ou dans un endroit non spécifié (le salon ?).
Ces interprétations pourraient être placées n'importe où dans l'élément <texte>; il est cependant souhaitable de les inclure au même endroit (par exemple dans une section séparée des textes liminaires ou annexes), comme dans l'exemple suivant :
<back> <div1 type='Interpretations'> <interp id='fig-apos' resp='LB, MSM' type='figure of speech' value='apostrophe'> <interp id='fig-hyp' resp='LB, MSM' type='figure of speech' value='hyperbole'> <!-- ... --> <interp id='set-church' resp='LB, MSM' type='setting' value='church'> <!-- ... --> <interp id='ref-church' resp='LB, MSM' type='reference' value='church'> <interp id='ref-serv' resp='LB, MSM' type='reference' value='servants'> <!-- ... --> </p></div>
La redondance évidente de ce type de codage peut être considérablement réduite en utilisant l'élément <interp> pour regrouper tous ces éléments <interp> qui partagent des valeurs d'attribut communes, comme suit :
<back> <div1 type='Interpretations'> <interpGrp type='figure of speech' resp='LB, MSM'> <interp id='fig-apos' value='apostrophe'> <interp id='fig-hyp' value='hyperbole'> <interp id='fig-meta' value='metaphor'> <!-- ... --> </interpGrp> <interpGrp type='scene-setting' resp='LB, MSM'> <interp id='set-church' value='church'> <interp id='set-kitch' value='kitchen'> <interp id='set-unspec' value='unspecified'> <!-- ... --> </interpGrp> <interpGrp type='reference' resp='LB, MSM'> <interp id='ref-church' value='church'> <interp id='ref-serv' value='servants'> <interp id='ref-cook' value='cooking'> <!-- ... --> </interpGrp> </p></div>
Une fois que ces éléments d'interprétation ont été définis, ils peuvent être reliés aux parties du texte auquel ils s'appliquent, d'une ou deux manières. L'attribut ana peut servir sur tout élément approprié :
<div1 type=chapter n='38'> <p id='P38.1' ana='set-church set-kitch'> <s id=P38.1.1 ana='fig-apos'>Reader, I married him.</s> ...
Notons dans cet exemple que puisque le paragraphe a deux scènes (dans l'église et dans la cuisine), les identifiants des deux sont fournies.
Alternativement, les éléments <interp> peuvent pointer sur toutes les parties du texte auquel ils s'appliquent, en utilisant leur attribut inst :
<interp id='fig-apos' type='figure of speech' resp='LB, MSM' value='apostrophe' inst='P38.1.1'> <!-- ... --> <interp id='set-church' type='scene-setting' value='church' inst='P38.1' resp='LB, MSM'> <interp id='set-kitchen' type='scene-setting' value='kitchen' inst='P38.1' resp='LB, MSM'> <!-- ... -->
L'élément <interp> n'est pas limité à un quelconque type d'analyse; l'analyse littéraire montrée ci-dessus n'est qu'une possibilité et l'on pourrait aussi bien employer <interp> afin de donner une analyse linguistique des parties du discours. Par exemple, la phrase d'exemple donnée en 8.3 Attributs de liaison suppose une analyse linguistique qui pourrait être représentée comme suit :
<interp id=NP1 type=pos value='noun phrase, singular'> <interp id=VV1 type=pos value='inflected verb, present-tense singular'> ...
Bien que ce document soit axé sur l'utilisation de la TEI pour le codage de documents existant déjà sous forme électronique, la même approche peut également servir pour le codage de nouveaux documents. Dans la préparation de nouveaux documents (tels que celui-ci), SGML a beaucoup d'attraits : la structure du document peut être représentée clairement et le même texte électronique peut être réutilisé pour maintes fins (par exemple pour produire à la fois des versions en ligne - en hypertexte ou consultables - et des versions imprimées bien formatées et mises en pages, le tout à partir d'une source SGML commune).
Pour faciliter ceci, un nombre limité d'éléments supplémentaires sont inclus dans la TEI Lite en tant qu'extensions du DTD principal de la TEI; ils serviront à marquer les caractéristiques particulières de documents techniques en général et des documents SGML en particulier.
Les éléments suivants peuvent servir pour marquer les caractéristiques particulières de documents techniques :
Les exemples suivants indiquent une utilisation possible de ces éléments, à savoir, le codage d'un passage faisant partie d'un cours de présentation du langage de programmation Fortran :
<p>Il est de tradition de présenter un langage de programmation à l'aide d'un premier exemple comme: <eg> CHAR*20 GRTG GRTG = 'BONJOUR TOUT LE MONDE' PRINT *, GRTG END </eg></p> <p>Dans cet exemple, on commence par déclarer la variable <ident>GRTG</ident>, dans la ligne <kw>CHAR*20 GRTG</kw>, qui identifie <ident>GRTG</ident> comme formée de 20 octets de type <kw>CHAR</kw>. On affecte alors à cette variable la valeur <mentioned>BONJOUR TOUT LE MONDE</mentioned>. Suivent alors l'ordre d'impression <kw>PRINT</kw> et l'instruction finale <kw>END</kw>.
Une application de formatage ayant à traiter un tel texte pourrait être programmée de façon à formater convenablement des exemples (par exemple, en conservant les coupures de ligne, ou en employant une police distinctive). Parallèlement, l'emploi de balises telles que <ident> et <kw> facilite grandement la création d'un index utile.
L'élément <formula> devrait servir à entourer une formule chimique ou mathématique présentée au sein du texte comme étant un passage distinct. Puisque les formules comportent généralement une grande variété de caractéristiques typographiques spéciales qui ne figurent pas ailleurs dans le texte courant, il sera habituellement nécessaire de présenter le corps de la formule dans une notation spécialisée. La notation employée devrait être spécifiée par l'attribut notation, comme dans l'exemple suivant :
<formula notation=tex> \(E = mc^{2}\) </formula>
La notation tex est pre-définie pour la DTD de la TEI Lite; d'autres notations peuvent être employées si besoin est, mais elles doivent être définies au préalable au moyen d'une mention du type « notation » dans la DTD.
Presque toutes les séquences de caractères sont admises dans le corps d'un élément <formula>, du moins du point de vue d'une application capable de traiter des données SGML. Les données sont transférées sans modification par l'analyseur syntaxique à toute application associé à la notation spécifiée. La seule exception à cette règle est que l'analyseur syntaxique reconnaîtra tout objet qui ressemble au début d'une fin-de-balise SGML, c'est-à-dire le caractère « plus petit que » (<) suivi aussitôt par une barre oblique (/) et un caractère alphabétique. En traitant l'exemple imaginaire ci-dessous, un analyseur syntaxique SGML générerait toute une suite de messages d'erreurs.
<formula notation=tex> \(E = mc^{2}</a\) </formula>
Heureusement, la séquence « </ » est plutôt rare dans la majorité des notations mathématiques utilisées actuellement. Néanmoins, si elle apparaît, il est nécessaire de prendre des dispositions qui dépassent le cadre de ce document (pour plus d'informations, se reporter au texte complet des recommandations de la TEI).
Ce problème existe sous une forme plus aiguë lorsque le codage SGML lui-même est le sujet de discussion à l'intérieur d'un document technique, lui-même codé en SGML. Dans un tel document, il est évidemment essentiel de faire une distinction entre le balisage SGML contenu dans les exemples, et celui qui est employé pour le balisage du document lui-même; dans ces textes, en effet, l'emploi de balises de fin est très vraisemblable. La solution la plus générale consiste à marquer le corps de chaque exemple SGML comme contenant des données qui ne doivent pas être balayées par l'analyseur syntaxique pour des fins de balisage SGML. Ceci est fait en l'entourant d'une structure SGML spéciale appelée CDATA marked section, comme dans l'exemple suivant :
<p>Une liste devrait être codée comme suit: <eg><![CDATA [ <list> <item>Premier élément de la liste<item> <item>Second élément</item> </list> ]]> </eg> Les éléments <gi>list</gi> sont composés d'une série d'éléments <gi>item</gi>.
L'élément <list> employé dans l'exemple ci-dessus ne sera pas
considéré comme faisant partie du document proprement dit, parce qu'il
est inséré à l'intérieur d'une section balisée (qui commence avec la
mention spéciale de balisage
<! [ CDATA [
, et qui se
termine avec
] ]>
).
À noter également l'utilisation de l'élément <gi> pour baliser les références à des noms d'éléments SGML (ou des identifiants génériques) au sein du corps du texte.
La plupart des systèmes modernes de production de documents sont capables de générer automatiquement des sections entières telles qu'une table de matières ou un index. La TEI Lite fournit un élément pour marquer l'emplacement d'une section générée de cette façon.
L'élément <divGen> peut être placé partout où un élément de division serait autorisé, comme dans l'exemple suivant :
<front> <titlePage> ... </titlePage> <divGen type=toc> <div type='Preface'><head>Preface</head> ... </div> </front> <body> ... </body> <back> <div1><head>Appendix</head> ... </div1> <divGen type=index n='Index'> </back>
Cet exemple montre également l'emploi de l'attribut type pour distinguer les différentes sortes de division à générer : dans le premier cas une table des matières (toc) et dans le second un index.
Lorsqu'une table des matières ou un index existant doit être codé (plutôt que généré) pour une raison quelconque, il convient d' employer l'élément <list> présenté en 12 Listes.
Tandis que la génération d'une table des matières à partir d'un document correctement balisé se passe généralement sans problèmes pour un processeur automatique, la production d'un index de bonne qualité nécessitera dans bien des cas un balisage plus réfléchi. Il peut ne pas être suffisant de produire une simple liste de toutes les parties balisées d'une certaine façon, bien que le fait d'extraire (par exemple) toutes les occurrences d'éléments tels que <term> ou <name> soit souvent un bon point de départ pour un index.
La DTD de la TEI fournit un balise <index> spéciale qui peut servir pour indiquer à la fois les parties du document qui devrait figurer dans l'index, et la façon dont l'indexage devrait être fait.
Par exemple, le deuxième paragraphe de la présente section pourrait présenter le balisage suivant :
... La DTD de la TEI fournit une balise <gi>index</gi> tag <index level1='indexing'> <index level1='index (tag)' level2='use in index generation'> spéciale qui peut servir ...
L'élément <index> peut également servir pour fournir une forme d'information analytique ou interprétative. Par exemple, dans une étude d'Ovide, on pourrait vouloir enregistrer toutes les références du poète concernant les différents personnages, pour des besoins d'étude stylistique comparative. Dans les lignes suivantes des Métamorphoses, une telle étude enregistrerait les références du poète à Jupiter (comme deus, se et en tant que sujet de confiteor [sous la forme inflectionnelle 227]), à Jupiter en guise de taureau (imago tauri fallacis et sujet de teneo), et ainsi de suite. L'analyse est empruntée, avec autorisation, à Willard McCarty et Burton Wright, An Analytical Onomasticon to the Metamorphoses of Ovid (Princeton : Princeton University Press, à paraître). L'exemple a été légèrement simplifié.
<l n=3.001>iamque deus posita fallacis imagine tauri <l n=3.002>se confessus erat Dictaeaque rura tenebat
Cet objectif pourrait être atteint au moyen de l'élément <note> présentée en 7 Notes ou au moyen de l'élément <interp> présenté en 16 Interprétation et analyse. Ici nous montrons le moyen d'obtenir le même résultat avec l'élément <index>.
Nous supposons que l'objet doit générer plus d'un index : un pour des noms de divinités (appelé dn), un autre pour des références onomastiques (appelé on), un troisième pour les références pronominales (appelées pr), et ainsi de suite. Une façon d'y parvenir est indiquée ci-dessous :
<l n=3.001>iamque deus posita fallacis imagine tauri <index index="dn" level1="Iuppiter" level2="deus"> <index index="on" level1="Iuppiter (taurus)" level2="imago tauri fallacis"></l> <l n=3.002>se confessus erat Dictaeaque rura tenebat <index index="pr" level1="Iuppiter" level2="se"> <index index="v" level1="Iuppiter" level2="confiteor (v227)"> <index index="mons" level1="Dicte" level2="rura Dictaea"> <index index="regio" level1="Creta" level2="rura Dictaea"> <index index="v" level1="Iuppiter (taurus)" level2="teneo (v9)"></l>
Pour chaque élément <index> ci-dessus, une entrée sera générée dans l'index approprié, en employant comme mot principal la valeur de l'attribut level1 et comme mot clé secondaire celui de l'attribut level2 qui contient le mot cité sous sa forme nominative. La référence elle-même sera prise dans le contexte où figure l'élément <index>, c'est-à-dire dans le cas présent, l'identifiant de l'élément <l> qui le contient.
Pour ceux qui travaillent avec des formes classiques des langues
européennes, les recommandations de la TEI concernant l'emploi des
jeux de caractères sont simples. Pour un emploi local, il suffit
d'utiliser tout jeu de caractères supporté par la machine et le
logiciel. Au cas où le logiciel rend difficile la saisie directe des
caractères spéciaux au clavier, il est possible de définir des
conventions propres de saisie (par exemple, représenter les lettres
accentuées en dactylographiant l'accent approprié aussitôt après la
lettre, ou en utilisant des séquences spéciales qui n'ont que peu de
chance d'apparaître dans le texte normal, tel que « aE » pour
« ä » ). Des fonctions de recherche et de remplacement globales
peuvent être ensuite utilisées pour transformer ces raccourcis en des
caractères corrects. C'est ce que nous faisons dans
la version française de ce document où nous avons utilisé les
caractères accentués
é è À
etc. au lieu de leur codage
TEI. Si l'on doit employer des écritures non latines et qu'il
existe un système de translitération normalisé dans le domaine
particulier (par exemple, pour le grec ancien, le code bêta du
Thesaurus Linguæ Græcæ), il faut
utiliser cette norme. Toute translitération employée devrait être
réversible (ce qui exclut un nombre surprenant de schémas employés
communément dans l'écriture normale), et son utilité sera plus grande
si elle ne nécessite aucune ligature spéciale ni lien ni signe
diacritique (ce qui exclut un nombre surprenant des schémas
restants...).
Pour l'échange de fichiers entre des systèmes, seules les références d'entité SGML sont à employer pour remplacer tout caractère ne figurant pas dans la liste de caractères ci-dessous (les caractères de cette liste sont ceux qui peuvent être échangés sans perte d'informations entre la plupart des systèmes) :
a b c d e f g h i j k l m n o p q r s t u v w x y z A B C D E F G H I J K L M N 0 P Q R S T U V W X Y Z 0 1 2 3 4 5 6 7 8 9 " % & ' ( ) * + , - /:; < = >? _ (space)
Cette liste exclut les caractères suivants
! # $ [ \ ] ^ ` { } | ~qui, dans bien des cas et au grand mécontentement des utilisateurs non avertis, ne survivent pas aux transferts au-delà des frontières nationales ou à travers les réseaux longue distance. {Ces caractères font en fait partie de l'IVR (International Reference Version) du codage Ascii/Iso 646. Voir le Cahier GUTenberg numéro 20 sur ces problèmes de codage.
Par contre, pour un simple transfert entre Mac et PC, ces caractères pourront peut-être être échangés sans dommage.
Afin d'assurer la transmission correcte à travers des réseaux hétérogènes, des références d'entité doivent être employées pour tous les caractères latins accentués et étendus, pour tous les caractères non latins, et enfin pour tous les symboles ne figurant pas sur un clavier d'ordinateur conventionnel.
Si on le désire, on peut employer ses propres noms d'entité SGML dans des fichiers conforme à la TEI, à condition de fournir des mentions standard d'entité SGML à leur place; mais les noms standard, (quoique longs ou compliqués) ont l'avantage de la clarté; ces noms sont parlants pour tout locuteur anglophone (il est donc très important que le français soit aussi accessible « naturellement » grâce justement à ces mentions d'entités) qui peut reconnaître qu'il s'agit d'un nom de caractère, souvent même sans recours à une liste. Notons que ce n'est pas le cas de beaucoup d'autres méthodes employées pour représenter des caractères accentués.
Les noms d'entité requis pour les caractères présentés ci-dessus comme peu sûrs, et pour les caractères accentués de certaines langues majeures de l'Europe occidental, sont donnés ci-dessous. Les listes des jeux d'entité publics ainsi que leur contenu sont disponibles dans tout ouvrage de référence traitant de SGML : les noms donnés ci-dessous sont extraits des jeux d'entité publics ISO, sont largement employés et sont donc recommandés.
Lorsqu'un caractère ne paraît pas dans les jeux d'entité public, on peut désirer générer un nom, au moyen des mêmes conventions de nommage employées dans les jeux d'entité publics ISO, comme ici :
En résumé, voici les caractères français selon le Lexique des règles typographiques en usage à l'Imprimerie nationale, Imprimerie nationale, Paris, 1990 (p. 102) - notons toutefois que les caractères « oe OE » et « æ Æ » ne sont pas des ligatures, facultatives, mais de vrais caractères : (voir Cahier GUTenberg numéro 22 à ce sujet). Nous ajoutons pour chacun le codage TEI (mais, rappelons le, le codeur ne devrait normalement pas s'en soucier).
à | à | À | À |
â | â | Â | Â |
é | é | É | É |
è | è | È | È |
ê | ê | Ê | Ê |
ë | ë | È | È |
î | î | Î | Î |
ï | ï | Ï | Ï |
ô | ô | Ô | Ô |
ù | ù | Ù | Ù |
û | û | Û | Û |
ü | ü | Ü | Ü |
ç | &ccdel; | Ç | &Ccdel; |
æ | æ | Æ | Æ |
oe | œ | OE | Œ |
Pour de nombreuses applications, particulièrement dans le cas des textes anciens, les pages liminaires telles les pages de titre, les épîtres introductrices etc., peuvent fournir un complément très utile d'informations sociales ou linguistiques. Le document P3 donne un ensemble de recommandations pour distinguer les éléments textuels rencontrés le plus souvent dans les liminaires. Nous décrivons ces éléments ci-dessous.
Le début d'une page de titre devrait être marqué au moyen de l'élément titlePage. Tout texte contenu sur la page devrait être transcrit et balisé au moyen de l'un des éléments figurant dans la liste suivante :
Les distinctions de polices de caractère devraient être marquées avec l'attribut rend quand cela est nécessaire, comme ceci est décrit ci-dessus. La description très détaillée de l'interlettrage et du dimensionnement employé dans des titres ornementaux, n'est pas encore fournie par la TEI. Les changements de langue devraient être marqués par l'emploi approprié de l'attribut lang ou de l'élément <foreign>, selon les cas. Les noms, partout où ils paraissent, devraient être balisés au moyen de l'élément <name>, comme par ailleurs.
Deux pages de titre sont reproduites comme exemples :
<titlePage> <docTitle><titlePart type=main> Histoire du Roi de Bohème</titlePart> <titlePart type='sub'>et de ses sept châteaux </titlePart></docTitle> <titlePart>Pastiche.</titlePart> <byline>Par <docAuthor>Charles Nodier</docAuthor> </byline> <epigraph> <q>O imitatores, servum pecus! <bibl>Horat., Epist. I. XIX, 19.</bibl> </epigraph> <docImprint><name>PARIS</name>, <name>Delangle Frères</name> Éditeurs-libraires, <name>Place de la Bourse</name> </docImprint> <docDate>MDCCCXXX</docDate> </titlePage>
<titlePage> <docTitle><titlePart type=main> Lives of the Queens of England, from the Norman Conquest;</titlePart> <titlePart type='sub'>with anecdotes of their courts. </titlePart></docTitle> <titlePart>Now first published from Official Records and other authentic documents private as well as public.</titlePart> <docEdition>New edition, with corrections and additions</docEdition> <byline>By <docAuthor>Agnes Strickland</docAuthor> </byline> <epigraph> <q>The treasures of antiquity laid up in old historic rolls, I opened.</q> <bibl>BEAUMONT</bibl> </epigraph> <docImprint>Philadelphia: Blanchard and Lea </docImprint> <docDate>1860</docDate> </titlePage>
Les blocs majeurs de texte à l'intérieur des pièces liminaires devraient être marqués comme des éléments <div> ou <div1> ; les valeurs suggérées ci-après pour l'attribut type peuvent servir pour distinguer divers types communs de textes liminaires :
Comme pour toute division de texte, celles situées dans les pièces liminaires peuvent contenir des éléments structuraux de bas niveau ou des éléments non structuraux, tel que décrits ailleurs. Dans la plupart des cas, elles commenceront avec un titre ou un intitulé d'un certain type, qui devrait être balisé au moyen de l'élément <front>. Les épîtres contiendront les éléments supplémentaires suivants :
Les épîtres qui paraissent ailleurs dans un texte, bien sûr, contiendront ces mêmes éléments.
À titre d'exemple, la dédicace qui apparaît au début du Comus de Milton devrait être balisée comme suit :
<div type='dedication'> <head>To the Right Honourable <name>JOHN Lord Viscount BRACLY</name>, Son and Heir apparent to the Earl of Bridgewater, &c.</head> <salute>MY LORD,</salute> <p>THis <hi>Poem</hi>, which receiv'd its first occasion of Birth from your Self, and others of your Noble Family .... and as in this representation your attendant <name>Thyrsis</name>, so now in all reall expression <closer> <salute>Your faithfull, and most humble servant</salute> <signed><name>H. LAWES.</name></signed> </closer> </div>
À cause des variations dans la pratique éditoriale, les annexes peuvent contenir virtuellement n'importe lequel des éléments présentés ci-dessus en tant que pièces liminaires, et ces mêmes éléments devraient être employés dans ces cas. En outre, les annexes peuvent contenir les types de texte suivants, dans un élément <back>. Comme pour les divisions structurales du corps, ceux-ci devraient être balisés comme des éléments <div> ou <div1>, et distingués entre eux par l'attribut type, avec les valeurs suggérées suivantes :
type="gloss"
;Chaque texte TEI a un en-tête qui fournit des informations analogues à celles que l'on trouve sur une page de titre imprimée. L'en-tête est introduite par l'élément <teiHeader> et comporte quatre parties majeures :
Un corpus ou une collection de textes, qui partagent beaucoup de caractéristiques, peuvent avoir un en-tête pour le corpus et des en-têtes individuels pour chaque composant du corpus. Dans ce cas l'attribut type indique le type d'en-tête.
<teiHeader type=corpus>
introduit l'en-tête pour les informations concernant le corpus.
Certains des éléments de l'en-tête contiennent du texte libre, codé sous forme d'un ou plusieurs <p>. D'autres sont groupés :
L'élément <fileDesc> est obligatoire. Il contient une description bibliographique complète du fichier, à l'aide des éléments suivants :
Un en-tête minimal aura la structure suivante :
<teiHeader> <fileDesc> <titleStmt> ... </titleStmt> <publicationStmt> ... <publicationStmt> <sourceDesc> ... <sourceDesc> </fileDesc> </teiHeader>
Un élément <titleStmt> peut contenir les éléments suivants :
Il est souhaitable que le titre permette de distinguer le fichier électronique du texte source, par exemple :
[title of source]: a machine readable transcription [title of source]: electronic edition A machine readable version of: [title of source]
L'élément <respStmt> regroupe les sous-composants suivants :
Exemple :
<titleStmt> <title>Maximes</title> <author>La Rochefoucauld, (1613-1680). <respStmt><resp>Texte établi, avec introduction ...</resp> <name>Jean Truchet</name></respStmt> </titleStmt>
L'élément <editionStmt> regroupe des informations relatives à une édition d'un texte (l'expression édition étant employée avec son sens usuel en bibliographie) et peut inclure les éléments suivants :
Exemple :
<editionStmt> <edition n=U2>Troisième version, revue et corrigée <date>1987</date> </edition> </editionStmt>
La détermination exacte de ce qui représente une nouvelle édition d'un texte électronique est laissée à l'appréciation du codeur.
La mention <extent> décrit la taille approximative d'un fichier.
Exemple :
<extent>4500 bytes</extent>
L'élément <publicationStmt> est obligatoire. Il peut contenir une simple description en texte libre ou des groupes composés à partir des éléments ci-dessous :
Au moins un de ces trois éléments doit être présent, à moins que la totalité de la mention de publication ne soit en texte libre. Ces éléments peuvent à leur tour contenir les éléments suivants :
Exemple (Céline, Romans, iv, La Pléiade) :
<publicationStmt> <publisher>Éditions Gallimard</publisher> <pubPlace>Paris</pubPlace> <date>1993</date> <idno type=ISBN> 2-07-011336-1</idno> <idno type=numero edition>64107</idno> <idno type=numero impression>I3-1903</idno> <idno type=depot legal>octobre 1993</idno> <availability>Copyright: Éditions Gallimard, Féerie pour une autre fois I, 1952; Féerie pour une autre fois II, 1954; Entretiens avec le professeur Y, 1955; Appendices, text, préface et apparat critique, 1993. </availability> </publicationStmt>
L'élément <seriesStmt> regroupe les informations concernant la collection ou série, si elle existe, à laquelle une publication appartient. Il peut contenir <title>, <idno>, ou des éléments <respStmt>.
L'élément <notesStmt>, s'il est employé, contient un ou plusieurs éléments <note> qui contiennent une note ou annotation. Certaines des informations que l'on trouve dans la zone des notes dans les descriptions bibliographiques conventionnelles sont représentées par des éléments spécifiques dans la TEI.
L'élément <sourceDesc> est un élément obligatoire qui enregistre des détails concernant la ou les sources à partir desquelles le fichier électronique a été dérivé. Il peut contenir du texte libre ou une citation bibliographique, au moyen d'un ou plusieurs des éléments suivants :
Exemples :
<sourceDesc> <bibl>The first folio of Shakespeare, prepared by Charlton Hinman (The Norton Facsimile, 1968)</bibl> </sourceDesc>
<sourceDesc> <scriptStmt id=CNN12> <bibl><author>CNN Network News <title>News headlines <date>12 Jun 1989 </bibl> </scriptStmt> </sourceDesc>
L'élément <encodingDesc> précise les méthodes et les principes éditoriaux qui on régi la transcription du texte. Son emploi est fortement recommandé. Il peut être une description en texte libre, ou se composer d'éléments pris dans la liste suivante :
Exemples d'utilisation des éléments <projecDesc> et <samplingDesc> :
<encodingDesc> <projectDesc>Texte saisi d'après le fond du Musée d'Art Brut de Lausanne, Suisse, juillet 1996. </projectDesc> </encodingDesc>
<encodingDesc> <samplingDecl>Samples of 2000 words taken from the beginning of the text </samplingDecl> </encodingDesc}
L'élément <editorialDecl> regroupe une description en prose des pratiques employées lors du codage du texte. Typiquement, cette description devrait couvrir des sujets tels que ceux qui sont indiqués ci-après. Pour chacun de ces thèmes, il conviendrait de créer un paragraphe séparé :
Exemple :
<editorialDecl> <p> L'analyse du récit oral de la section 4 a été faite à la main et n'a pas été vérifiée; <p> La transcription a été vérifiée à l'aide du « speller » d'Unix, mais avec le dictionnaire de l'Université de Paris-7; <p> Tous les mots américains sont écrits en suivant l'orthographe du Webster's 9th Collegiate dictionary. <p> Ici, nous utilisons le codage Iso-8859 (Latin1). </editorialDecl>
L'élément <tagsDecl> est employé pour fournir des informations dé taillées concernant les balises SGML paraissant effectivement à l'intérieur d'un texte. Il peut contenir une simple liste d'éléments à employer, avec un compteur pour chacun, au moyen des éléments suivants :
L'élément <rendition> est employé pour documenter les manières différentes dont les éléments sont rendus dans le texte source.
Par exemple :
<tagsDecl> <tagUsage gi=text occurs=1> <tagUsage gi=body occurs=1> <tagUsage gi=p occurs=12> <tagUsage gi=hi occurs=6> </tagsDecl>
Cette déclaration (imaginaire) de balisage conviendrait pour un texte contenant douze paragraphes dans son corps, parmi lesquels six éléments <hi> ont été marqués. À noter que si l'élément <tagsDecl> est employé, il doit contenir un élément <tagUsage> pour chaque élément balisé dans l'élément de texte associé.
L'élément <refsDecl> est employé pour documenter le fonctionnement d'un éventuel système de référence canonique incorporé dans le codage. Dans sa forme la plus simple, il consiste en une description en texte libre.
Exemple :
<refsDecl> <p>L'attribut N de chaque DV1 ou DV2 contient la référence canonique de chaque sous-division sous la forme XX.yyy où XX est le le numéro du tome, en nombres romaines, et yyy le numéro de section, en chiffres arabes. </refsDecl>
L'élément <classDecl> regroupe les définitions pour, ou les sources de, tous les plans de classification descriptifs employés par d'autres parties de l'en-tête. Au moins un de ces plans doit être fourni, codé au moyen des éléments suivants :
Dans le cas le plus simple, la taxonomie peut être définie par un référence bibliographique, comme l'exemple suivant :
<classDecl> <taxonomy id='LCSH'> <bibl>Library of Congress Subject Headings </bibl> </taxonomy> </classDecl>
Alternativement, ou en outre, le codeur peut définir un plan de classification spécifique, comme dans l'exemple ci-après :
<taxonomy id=B> <bibl>Brown Corpus</bibl> <category id=B.A><catDesc>Press Reportage <category id=B.A1><catDesc>Daily</category> <category id=B.A2><catDesc>Sunday</category> <category id=B.A3><catDesc>National</category> <category id=B.A4><catDesc>Provincial</category> <category id=B.A5><catDesc>Political</category> <category id=B.A6><catDesc>Sports</category> ... </category> <category id=B.D><catDesc>Religion <category id=B.D1><catDesc>Books</category> <category id=B.D2><catDesc>Periodicals and tracts</category> </category> ... </taxonomy>
Le lien entre un texte particulier et une catégorie à l'intérieur d'une telle taxonomie est réalisé au moyen de l'élément <catRef> incorporé dans l'élément <textClass>, comme décrit plus en détail ci-dessous.
L'élément <profileDesc> permet d'enregistrer dans un cadre unique des informations caractérisant divers aspects descriptifs d'un texte. Il a trois composants facultatifs :
Exemples :
<creation> <date value='1992-08'>August 1992</date> <name type=place>Taos, New Mexico</name> </creation>
L'élément <textClass> classe un texte par référence au(x) système(s) défini(s) par l'élément <classDecl>. Il contient un ou plusieurs des éléments suivants :
L'élément <keywords> regroupe une liste de mots clés ou d'expressions clés servant à identifier le sujet ou la nature d'un texte. L'attribut scheme relie ceux-ci au système de classification défini dans l'élément <taxonomy>.
<textClass> <keywords scheme=LCSH> <list> <item>Littérature française -- Histoire et critique -- Bases de données.</item> <item>Littérature française -- Histoire et critique -- Théorie, etc.</item> <item>Langue française -- Style -- Bases de données.</item> </list> </keywords> </textClass>
L'élément <revisionDesc> fournit un journal de modifications dans lequel chaque modification apportée à un texte peut être enregistrée. Le journal peut être enregistré sous la forme d'une séquence d'éléments <change> dont chacun contient :
Exemple :
<revisionDesc> <change><date>6/3/91:</date> <respStmt><name>JT</name><resp>ed.</resp> </respStmt> <item>Modifié le format de fichier</item> <change><date>5/25/90:</date> <respSmt><name>JT</name><resp>ed.</resp> <item>Traité les modids de Jean Sort</item> </revisionDesc>
Tous les éléments employés dans la définition de type de document préconisée par la TEI Lite comportent les attributs globaux suivants (on trouvera, , un index de ces termes par ordre alphabétique, renvoyant à leurs définitions) :
La liste suivante donne tous les éléments définis pour la DTD, avec, dans chaque cas, une courte description (on trouvera, , un index de ces termes, anglais ou français, par ordre alphabétique renvoyant à leurs définitions) :
pb=page break
) marque la limite entre
une page d'un texte et la suivante, dans un système de référence
normalisé;On trouvera ici le texte TEI et, prochaine section, cette bibliographie sous une forme éditée.
<listBibl> <bibl>ALA (American Library Association). <title>ALA-LC Romanization Tables: Transliteration Schemes for Non-Roman Scripts</title>, approved by the Library of Congress and the American Library Association, tables compiled and edited by Randall K. Barry. Washington: Library of Congress, 1991. </bibl> <bibl>ANSI (American National Standards Institute). <title>ANSI X3.4-1986. American National Standard for Information Systems — Coded Character Sets — 7-bit American National Standard Code for Information Interchange (7-bit ASCII).</title> [New York]: ANSI, 1986. </bibl> <bibl> <author>Barnard, David, et al.</author> <title level=a>SGML-Based Markup for Literary Texts.</title> <title>Computers and the Humanities</title> <biblScope>22 (1988): 265-76.</biblScope> </bibl> <bibl> <author>Barron, David</author> <title level=a>Why use SGML?</title> <title>Electronic Publishing Origination, Dissemination and Design</title> <biblScope>2.1 (April 1989): 3-24.</biblScope> </bibl> <bibl> <author>Coombs, James H., Allen H. Renear, and Steven J. DeRose.</author> <title level=a>Markup Systems and the Future of Scholarly Text Processing.</title> <title>Communications of the ACM</title> <biblScope>30.11 (November 1987): 933-947.</biblScope> </bibl> <bibl> <editor>Cover, Robin C., et al.</editor> <title>A Bibliography on Structured Text: Technical Report 90-281</title> <publisher>Queen's University,</publisher> <pubPlace>Kingston, Ont.</pubPlace> <date>June 1990</date> <note place=inline>Une version tenue à jour de cette bibliographie se trouve à <code>http://www.sil.org/sgml/sgml.html</code>. </bibl> <bibl> <author>Goossens, Michel.</author> <title level=a>Introduction rpatique à SGML.</title> <title> Cahiers GUTenberg.</title> <biblScope>19 (Janvier 1995): 27-58.</biblScope> </bibl> <bibl>Goldfarb, Charles F., <title>The SGML Handbook.</title> Oxford: Clarendon Press, 1990.</bibl> <bibl> <author>van Herwijnen, Eric.</author> <title>Practical SGML.</title> <publisher>Kluwer Academic Publishers</publisher> <date>1990; 2d ed. 1994.</date> <note place=inline> Version française: SGML pratique, International Thomson Publishing France, 1995. </bibl> <bibl>ISO (International Organization for Standardization). <title>ISO 8859-1: 1987 (E). Information processing — 8-bit Single-Byte Coded Graphic Character Sets — Part 1: Latin Alphabet No. 1.</title> (<title>Traitement de l'information — Jeux de caractères graphiques codés sur un seul octet — Partie 1: Alphabet latin no 1.</title>) First edition — 1987-02-15. [Geneva]: International Organization for Standardization, 1987. </bibl> <bibl>ISO (International Organization for Standardization). <title>ISO 8879-1986 (E). Information processing — Text and Office Systems — Standard Generalized Markup Language (SGML). </title> First edition — 1986-10-15. [Geneva]: International Organization for Standardization, 1986. </bibl> <bibl>ISO (International Organization for Standardization). <title>ISO 8879:1986 / A1:1988 (E). Information processing — Text and Office Systems — Standard Generalized Markup Language (SGML), Amendment 1.</title> Published 1988-07-01. [Geneva]: International Organization for Standardization, 1988. </bibl> <bibl>ISO (International Organization for Standardization). <title>ISO/TR 9573-1988(E). Information processing—SGML support facilities—Techniques for using SGML.</title> Final text of 1988-09-12. </bibl> <bibl>ISO (International Organization for Standardization), and IEC (International Electrotechnical Commission). <title>ISO/IEC 10646-1: 1993. Information technology — Universal Multiple-Octet Coded Character Set (UCS) — Part 1: Architecture and Basic Multilingual Plane.</title> [Geneva]: International Organization for Standardization, 1993. </bibl> <bibl>ISO (International Organization for Standardization), and IEC (International Electrotechnical Commission). <title>ISO/IEC 10744: 1992. Information Technology — Hypermedia/Time-based Structuring Language (HyTime).</title> [Geneva]: International Organization for Standardization, 1992. </bibl> <bibl> Langendoen, D. Terence, and Gary F. Simons. <title level=a>A Rationale for the TEI Recommendations for Feature-Structure Markup.</title> <title>Computers and the Humanities</title> (1995; in press). </bibl> <bibl> <author>Vignaud, Dominique.</author> <title>L'édition structurée des documents.</title> <publisher>Editions du cercle de la librairie.</publisher> <date>1990.</date> </bibl> <bibl> <author>Warmer, J., and S. van Egmond</author> <title level=a>The implementation of the Amsterdam SGML parser.</title> <title>Electronic Publishing Origination, Dissemination and Design</title> <biblScope>2.2 (July 1989): 65-90.</biblScope> </bibl> </listBibl>
http://www.sil.org/sgml/sgml.html
.