L'objectif principal de la textométrie est de compter des éléments (des contenus textuels) dans des ensembles (des contenants regroupant des unités élémentaires d'un texte ou des zones de texte couvrant un certain nombre ou un certain type d'unités élémentaires).

Les contenus se réalisent sous la forme de ressources textuelles (une séquence de caractères organisée en phrases, en paragraphes etc.).

Les contenants existent sous la forme de système de masques ou de calques que l'on peut définir sur les contenus. Il s'agit de systèmes d'annotations que l'on peut définir sur tout ou partie des zones textuelles, ces annotations constituant en retour des accès sur les parties textuelles qu'elles définissent (le marquage des phrases ou des paragraphes étant un exemple d'annotation particulier pour décrire un certain niveau de la structure du texte).

Le processus de comptage nécessite au préalable d'identifier les contenus et les contenants. Ce préalable consiste à expliciter une segmentation du texte conduisant à la mise au jour d'une Trame sur laquelle des annotations pourront se greffer ultérieurement.

Trame et Cadre textométriques

La définition d'une Trame textométrique sur un corpus de textes permet de décrire les systèmes de zones qui correspondent aux contenants de l'analyse textométrique (parties, paragraphes, phrases, sections, chapitres etc.). On peut rassembler les descriptions relatives aux systèmes de contenants dans une structure de données particulière le Cadre textométrique.

Nous appelons Trameur l'outil informatique qui permet de construire une ressource textométrique Trame/Cadre, à partir d'un ensemble de textes rassemblés en corpus, selon les principes définis plus haut. La partie Trame de la ressource textuelle produite par le trameur est constituée par la suite des items isolés lors de l'opération de segmentation. La partie Cadre rassemble les données relatives aux différents découpages réalisés sur le corpus ainsi que les annotations déjà projetées sur les contenants ou les contenus constitués lors des étapes précédentes.
La transmission d'une ressource textuelle constituée sous la forme Trame/Cadre constitue une solution suffisante pour servir de base à toute exploration textométrique ultérieure.

Source : [Söze-Duval, 2008], Keyser Söze-Duval. Pour une textométrie opérationnelle. (DOC)

3 Présentation générale

Le Trameur : Programme de génération puis de gestion de la Trame et du Cadre d’un texte (i.e découpage en unité et partitionnement du texte : le métier textométrique) pour des opérations textométriques (ventilation des unités, carte des sections, cooccurrence, spécificité, AFC...).

Le Trameur intègre le programme treetagger[1] : système d'étiquetage automatique des catégories grammaticales des mots avec lemmatisation.

Il permet aussi de généner et de gérer dynamiquement des annotations multiples sur les unités du texte (et de traiter les niveaux d'annotations visés).

Ce document présente tout d’abord la « version Tk » du Trameur puis la « version console ».

Toutes les distributions "complètes" du trameur intègrent par défaut les modules complémentaires : R, Treetagger et Pajek

Toutes les distributions "complètes" intègrent une ressource d'annotation pour Treetagger adaptée au français oral, celle-ci a été réalisée par Christophe Benzitoun (ATILF) (source : http://cnrtl.fr/corpus/perceo/)

Toutes les distributions "allégées" n'intègrent pas les modules complémentaires : Treetagger et Pajek. Pour les installer, suivre le mode d'emploi disponible en ligne.

4 Installation

4 .1 Installation du Trameur

Après installation du programme setup-trameur.exe, l’arborescence de fichiers de l’application a l’allure suivante :

Descriptif des principales ressources du dossier d’installation :

Le dossier _Inline contient des bibliothèques externes pour le Trameur
Le dossier annotations-structuelles contient des ressources illustrant la construction de Graphe d’annotation (cf infra)
Le dossier cooc contient des ressources pour le calcul des cooccurrents (stop-liste)
Le dossier documentation contient ce même document en version PDF et en version HTML
Le dossier export[2] est utilisé pour stocker les exports de fichier générés par le Trameur
Le dossier graph est utilisé pour stocker les graphiques générés par le Trameur
Le dossier images contient les différentes icônes utilisées par le Trameur
Les dossiers import contiennent des modèles de fichier d’importation de bases textométriques ou de système d’annotations sur les fichiers de travail utilisés dans cette documentation.
Le dossier langues contient différents fichiers de paramétrage de langue nécessaire pour treetagger
Le dossier Pajek contient le programme du même nom et les ressources associées
Le dossier rapport contient les éléments utilisés pour générer les rapports produit par le Trameur
Le dossier textes contient des exemples de fichier de travail
Le programme tree-tagger.exe est lancé par le Trameur pour étiqueter le texte de travail
Le fichier GraphML2Pajek.xsl est utilisé par le Trameur pour exporter une liste de séquences de termes associées à un patron au format Pajek
Le programme le Trameur enfin : letrameur-tk.exe. Pour le lancer : double-clic sur son icône

4 .2 Installation du Trameur (version console)

Après avoir décompressé l’archive contenant le programme, l’arborescence de fichiers de l’application a l’allure suivante :

Le programme le Trameur se nomme ici : letrameur.exe. Pour le lancer, démarrer une fenêtre de commandes et suivre le mode d’emploi contenu dans le fichier README.txt ou dans ce document.

5 Interface du Trameur

L’interface du programme est composée d’une fenêtre graphique disposant de différents onglets, chacun permettant d’activer différentes fonctionnalités.

Figure 1 : Le Trameur Fenêtre principale

L’onglet CADRE visible au démarrage permet de charger la base de travail.

L’onglet VENTILATION donne accès aux fonctionnalités liées à la génération ou à l’affichage des graphes de ventilation.

L’onglet SECTION donne accès aux fonctionnalités liées à la Carte des Sections.

L’onglet FORME-LEMME donne accès aux dictionnaires des formes et des lemmes et aux fonctionnalités associées.

L’onglet CATEGORIE-TAG donne accès aux dictionnaires des catégories et des annotations complémentaires et aux fonctionnalités associées.

L’onglet SEGMENT donne accès aux fonctionnalités liées au calcul des segments répétés.

L’onglet COOC donne accès aux fonctionnalités liées aux calculs des cooccurrents et polycooccurrents.

L’onglet STAT donne accès aux fonctionnalités liées aux calculs statistiques (spécificités, AFC etc.).

L’onglet CONCORDANCE donne accès aux fonctionnalités liées aux concordances.

L’onglet PATRON donne accès aux fonctionnalités liées aux calculs d’extraction de patron.

L’onglet GRAPHE donne accès aux fonctionnalités liées aux graphes de relation entre les items de la Trame.

L’onglet RELATION (non visible dans la figure 1) donne accès aux fonctionnalités liées aux relations de dépendance entre les items de la Trame.

L’onglet SELECTION donne accès aux fonctionnalités du Gestionnaire de Sélection.

L’onglet RAPPORT donne accès aux fonctionnalités liées à la génération du rapport d’exploration d’une base.

L’onglet PARAM donne accès aux fonctionnalités permettant de paramétrer le chargement d’une base de travail.

6 Descriptif des icônes[3]

Icône	Fonction	Localisation
	Chargement de la base	Onglet CADRE
	Chargement de la représentation graphique du *Cadre*	Onglet CADRE
	Chargement de la représentation graphique de la Carte des sections	Onglet SECTION
	Suppression de la représentation graphique du *Cadre*	Onglet CADRE
	Sauvegarde de la représentation graphique du *Cadre*	Onglet CADRE
	Chargement de la représentation arborescente d’un document au format XML	Onglet CADRE
	Ajouter un élément au rapport	Fenêtre principale, tous les onglets
	Enregistrer le rapport	Fenêtre principale, onglet RAPPORT
	Export de la base textométrique (*Trame+Cadre*)	Onglet CADRE
	Export (*Trame+Cadre*) : format TXT et XML	Onglet CADRE
	Import d’une base textométrique (*Trame+Cadre*)	Onglet CADRE
	Export du fichier *Cadre* et du fichier *Trame*	Fenêtre principale
	Importation d’une annotation sur une *Trame*	Fenêtre principale
	Export de la concordance au format HTML	Onglet CONCORDANCE
	Documentation du programme au format HTML	Fenêtre principale
	Calcul des segments répétés	Fenêtre principale, onglet SEGMENT
	Génération de liste de séquences de termes associées à un patron	Onglet PATRON
	Export de liste des séquences de termes associées à un patron au format Pajek	Onglet PATRON
	Génération de la courbe d’accroissement du vocabulaire	Onglet VENTILATION
	Calcul des spécificités (cooc) dans les sections contenant le motif	Onglet SECTION
	Calcul des spécificités (cooc) dans les sections ne contenant pas le motif	Onglet SECTION
	Calcul des spécificités dans les sections sélectionnées	Onglet SECTION
	Calcul des mots spécifiques d’une série sections sélectionnées	Onglet SECTION
	Edition des items	Onglets FORME-LEMME, CATEGORIE-TAG
	Ventilation des items	Onglets FORME-LEMME, CATEGORIE-TAG, SEGMENT
	Concordance des items	Onglets FORME-LEMME, CATEGORIE-TAG, SEGMENT
	Projection sur le *Cadre* des items	Onglets FORME-LEMME, CATEGORIE-TAG, SEGMENT
	Projection sur la carte des sections des items	Onglets FORME-LEMME, CATEGORIE-TAG, SEGMENT, RELATION
	Calcul des cooccurrents et des poly-cooccurrents	Onglet COOCS
	Calcul du tableau lexical d’une partition	Onglet STAT
	Calcul AFC	Onglet STAT
	Calcul des Principales Caractéristiques Lexicométriques d’une partition	Onglet STAT

7 Chargement de la base : mise au jour du Cadre et de la Trame

A partir d'un texte segmenté, la numérotation des items découpés dans le texte de départ permet de constituer un système de coordonnées sur le texte dans lequel chaque item est repéré par son numéro d'ordre. Nous appelons ce système de coordonnées sur la séquence textuelle : la Trame textométrique. Ce même système de coordonnées permet de définir et de localiser, au sein du corpus, des zones textuelles (zones formées par une suite d'items consécutifs, entre la position x₁ la position x₂, réunion d'un certain nombre de zones de ce type, etc.). La définition d'une Trame textométrique sur un corpus de textes permet de décrire les systèmes de zones qui correspondent aux contenants de l'analyse textométrique (parties, paragraphes, phrases, sections, chapitres etc.). On peut rassembler les descriptions relatives aux systèmes de contenants dans une structure de données particulière le Cadre textométrique. (Söze-Duval 2008)

Une base textométrique peut être chargée dans Le Trameur :

1. en créant une nouvelle base (à partir de fichiers dont le format est défini infra)

« Créer une nouvelle base » déclenche la sélection du fichier visé puis son chargement (avec ou sans étiquetage via Treetagger) i.e génération d’une segmentation et du repérage des parties (cf infra format de fichier).

2. ou en important une base déjà créée (cf export d’une base textométrique)

« Importer une base » permet de charger une base textométrique déjà constituée (par exemple une base déjà exportée par le logiciel) i.e une base intégrant la description d’une Trame et d’un Cadre.

7.1 Chargement d’une nouvelle base

7.1.1 Paramétrage

L’onglet PARAM contient différents champs permettant de paramétrer le chargement de la base :

Figure 2 : Le Trameur Onglet PARAM

On peut y définir les délimiteurs utilisés pour segmenter le texte, l’encodage du texte à traiter, le fichier de langue à utiliser pour l’étiquetage via treetagger et les paramètres pour le calcul des segments répétés. On peut aussi y modifier la police d’édition du texte chargé (nécessaire pour le traitement de certaines langues). Les autres champs sont des indicateurs renseignés par le programme à l’issue du chargement de la base.

7.1.2 Chargement

L’onglet CADRE contient :

une zone complémentaire pour paramétrer le chargement de la base
une fenêtre d’édition du Cadre de la base (représentation graphique de l’enchâssement des parties)
une fenêtre d’édition d’une partie sélectionnée dans le Cadre

2 cases à cocher permettent de déclencher :

a. l’étiquetage du texte traité (avec treetagger),

b. l’impression des différents dictionnaires (Dics) : L’activation de Dics conduit à l’impression des différents dictionnaires disponibles à l’issue du chargement.

Pour charger une nouvelle base : activez le bouton

Figure 3 : Le Trameur Onglet CADRE

7.1.3 Etiquetage du texte

Le Trameur intégre (dans sa version complète) le programme treetagger[4] : un outil qui permet d'annoter un texte avec des informations sur les parties du discours (genre de mots: noms, verbes, infinitifs et particules) et des informations de lemmatisation. Pour activer l’étiquetage du texte chargé au démarrage, il est nécessaire, avant de charger le texte, de cocher la case à cocher « étiquetage » (cf onglet CADRE) et de choisir le fichier paramètre de langue à utiliser pour réaliser cet étiquetage (cf onglet PARAM) :

Figure 4 : Le Trameur Onglet PARAM : choix de langue pour Treetagger

Les langues utilisables sont visibles dans la figure précédente. La plupart des fichiers paramètres de langue associés ont été récupérés sur le site de treetagger. Le fichier « français oral » est issu du projet PERCEO[5] (ATILF (CNRS - Université de Lorraine) & INIST (CNRS) – LIPN), responsable scientifique Christophe Benzitoun (ATILF).

7.1.4 Inventaire typographique

Après avoir chargé une nouvelle base, il est possible de visualiser l’ensemble des caractères composant le fichier de travail (module Inventaire Typographique), on peut éventuellement modifier certains caractères ou modifier le statut de certains caractères (délimiteur). Pour illustrer ces fonctionnalités, on considère que la nouvelle base chargée a été construite à partir du fichier suivant :

<STRUCTURE="TITRE">Le dormeur du val § £

<STRUCTURE="TEXTEPOEME">

<LIGNE="VERS1">C' est un trou de verdure où chante une rivière,

<LIGNE="VERS2">Accrochant follement aux herbes des haillons

<LIGNE="VERS3">D' argent ; où le soleil ; de la montagne fière,

<LIGNE="VERS4">Luit : c' est un petit val qui mousse de rayons. §

<LIGNE="VERS5">Un soldat jeune, bouche ouverte, tête nue,

<LIGNE="VERS6">Et la nuque baignant dans le frais cresson bleu,

<LIGNE="VERS7">Dort ; il est étendu dans l'herbe, sous la nue,

<LIGNE="VERS8">Pâle dans son lit vert où la lumière pleut. §

<LIGNE="VERS9">Les pieds dans les glaïeuls, il dort. Souriant comme

<LIGNE="VERS10">Sourirait un enfant malade, il fait un somme :

<LIGNE="VERS11">Nature, berce-le chaudement : il a froid. §

<LIGNE="VERS12">Les parfums ne font pas frissonner sa narine ;

<LIGNE="VERS13">Il dort dans le soleil, la main sur sa poitrine,

<LIGNE="VERS14">Tranquille. Il a deux trous rouges au côté droit. § £

<STRUCTURE="AUTEUR">Arthur Rimbaud § £

Une fois la base chargée, l’inventaire typographique produit le résultat suivant :

Figure 5a : Le Trameur Inventaire Typographique

La sixième colonne met au jour les caractères en contexte (contextes gauche et droit) dans une fenêtre d’une cinquantaine de caractères : chaque cellule de cette colonne est éditable (clic sur la cellule).

La huitième colonne indique le statut du caractère : si la case est rouge, le caractère est un délimiteur. Un clic sur la case permet de changer le statut du caractère visé.

Les modifications étant réalisées, la sauvegarde du fichier (en tenant compte ses modifications réalisées) déclenche automatiquement le rechargement de la base dans le Trameur et la mise à jour éventuelle de la liste des délimiteurs (cf onglet PARAM).

Remarque : le processus de correction modifie le fichier initial, une sauvegarde de ce fichier est réalisée au préalable dans le même dossier.

Pour illustrer 2 fonctionnalités, on utilise infra un corpus issu du module petiMoteur disponible dans l’onglet CADRE.

Figure 5b : Le Trameur Inventaire Typographiquesur petitMoteur (1)

Ce module permet de réaliser un corpus à partir d’une liste d’URLs (ici une liste de 60 urls pointant vers des pages d’accueil de journaux français en ligne). Une fois le fichier d’URLs chargé (1), le module d’aspiration (2) construit un fichier concaténant les contenus textuels des différentes URLs. Le fichier produit (text_URLS.txt dans le même dossier que le fichier des URLs) peut ensuite être chargé dans le Trameur.

Figure 5c : Le Trameur Inventaire Typographiquesur petitMoteur (2)

L’inventaire révèle ici de nombreux caractères sur lesquels des modifications sont envisageables : erreurs de codage par exemple, attribution de statut de délimiteur etc.

7.1.5 Inventaire des parties

De la même manière, il est possible de construire un inventaire de toutes les balises utilisées pour définir le partitionnement du fichier chargé. Une fois la base chargée, l’inventaire des parties a l’allure suivante :

Figure 5d : Le Trameur Inventaire des parties

La cinquième colonne met au jour chaque balise en contexte (contextes gauche et droit) dans une fenêtre d’une cinquantaine de caractères : chaque cellule de cette colonne est éditable (clic sur la cellule).

Les modifications étant réalisées, la sauvegarde du fichier (en tenant compte ses modifications réalisées) déclenche automatiquement le rechargement de la base dans le Trameur.

Remarque : le processus de correction modifie le fichier initial, une sauvegarde de ce fichier est réalisée au préalable dans le même dossier.

Ce processus peut être utile pour corriger le fichier chargé en supprimant notamment les caractères < et > résiduels : cf ci-dessous. Ce module permet aussi de renommer les balises ; ci-dessous, 2 opérations de renommage sont réalisées, l’une d’entre elles s’accompagne aussi d’un ajout d’une nouvelle balise.

Ci-dessous, un corpus issu du programme Gromoteur[6] (même liste d’URLs que précédemment) dont l’inventaire des parties produit ceci :

Figure 5e : Le Trameur Inventaire des parties sur Gromoteur

L’inventaire peut conduire à supprimer des balises « erronées » ou à modifier les balises existantes pour redéfinir le partitionnement de la base après sauvegarde des modifications.

7.2 Importer une base

On peut aussi charger une base en important une base textométrique existante (une Trame et un Cadre). On active cette fonctionnalité via le bouton idoine

Le format du fichier d’importation d’une base est présenté dans la section « Exporter une base textométrique ».

On trouvera des exemples de bases textométriques déjà constituées sur la page web du projet. Ci-dessous, quelques bases utilisées dans ce document :

Base "Rhapsodie2Trameur" construite à partir des ressources développées dans le cadre du projet Rhapsodie. Chaque item de la Trame est associé à 13 niveaux d'annotation (micro-syntaxe).

SOURCES : projet Rhapsodie

Fichiers de codage microsyntaxique version béta 10/13 (zip)

Descriptif et sources des annotations :
Annotations Rhapsodie pour le Trameur (pdf) : présentation du processus de transcodage des annotations Rhapsodie pour construire une base Textométrique ; présentation des différents processus de traitements des annotations de dépendance.

Open publication - Free publishing

Base "Rhapsodie2Trameur" (v4) (màj : 19.07.2014) construite à partir des ressources développées dans le cadre du projet Rhapsodie. Chaque item de la Trame est associé à 38 niveaux d'annotation (prosodie, micro et macro-syntaxe).

(clic pour vue détaillée)

SOURCES : projet Rhapsodie

Descriptif et sources des annotations :
Annotations Rhapsodie pour le Trameur (pdf) : présentation du processus de transcodage des annotations Rhapsodie pour construire une base Textométrique ; présentation des différents processus de traitements des annotations de dépendance.

· Base "Corpus de contes français" (Fairy Tales Corpus, FTC) construite à partir des ressources développées par Ismaïl El Maarouf. Chaque item de la Trame est associé à 7 niveaux d'annotation.

SOURCES : I. El Maarouf et J. Villaneau (2012). A French Fairy Tale Corpus syntactically and semantically annotated. In Proceedings of LREC 2012. Istanbul (Tk).
Pour les formes : copyright Momes.net, http://momes.net.
Lemme et POS via treetagger : fichier paramètre langue (français, utf-8) développé par Christophe Benzitoun (ATILF)
Pour les annotations : http://elmaarouf.legtux.org/Accueil.html

Descriptif et sources des annotations :
balise <f> (forme) : copyright Momes.net, http://elmaarouf.legtux.org/data/FTC_FORM.txt
balise <l> (lemme) : fichier paramètre langue (français oral, utf-8) développé par Christophe Benzitoun (ATILF) (source : http://cnrtl.fr/corpus/perceo/)
balise <c> (POS) : fichier paramètre langue (français oral, utf-8) développé par Christophe Benzitoun (ATILF)
Annotations complémentaires (http://elmaarouf.legtux.org/Accueil.html) :
- Identifiants de mots : http://elmaarouf.legtux.org/data/FTC_ID.txt (première balise <a>)
- Annotation référentielle : http://elmaarouf.legtux.org/data/FTC_REF.txt (seconde balise <a>)
- Annotation en rôles sémantiques pour 26 verbes : http://elmaarouf.legtux.org/data/FTC_SEMROLE.txt (troisième balise <a>)
- Annotation syntaxique en dépendance pour 137 verbes : http://elmaarouf.legtux.org/data/FTC_SYNROLE.txt (dernière balise <a>)

L'ensemble des annotations du corpus initial (+ lemme et POS) regroupées ici au format d'une base textométrique pour le Trameur.

8 Les formats d’entrée (nouvelle base)

Voir aussi : Fleury Serge, Le Trameur. Propositions de description et d’implémentation des objets textométriques, (PDF).

Le texte précédent met au jour une description des objets textométriques et les méthodes mises en œuvre dans le Trameur pour travailler sur et avec ces objets dans une perspective textométrique. On y détaille aussi les opérations permises sur une base textométrique : format des données textuelles, modification dynamique de la Trame, correction ou ajout d'annotation etc.

8.1 Format texte brut

Le dormeur du val

C' est un trou de verdure où chante une rivière,

Accrochant follement aux herbes des haillons

D' argent ; où le soleil ; de la montagne fière,

Luit : c' est un petit val qui mousse de rayons.

Le texte contient une Trame mais pas de Cadre. Le Trameur peut travailler sur la Trame du texte.

8.2 Format dit « Lexico »

Exemple n°1 :

<STRUCTURE="TITRE"> Le dormeur du val

<STRUCTURE="TEXTEPOEME">

<LIGNE="VERS1"> C' est un trou de verdure où chante une rivière,

<LIGNE="VERS2"> Accrochant follement aux herbes des haillons

<LIGNE="VERS3"> D' argent ; où le soleil ; de la montagne fière,

<LIGNE="VERS4"> Luit : c' est un petit val qui mousse de rayons.

Le texte contient une Trame et un Cadre (balise de début explicite pour chaque partie, balise de fin implicite). Le Trameur peut travailler sur la Trame du texte et il est possible d’accéder au texte par son Cadre.

8.3 Format XML

Exemple n°2 :

<?xml version="1.0" encoding="iso-8859-1"?>

<poeme>

<structure niveau="TITRE"> Le dormeur du val</structure>

<ligne type="VERS1"> C'est un trou de verdure où chante une rivière,</ligne>

<ligne type="VERS2"> Accrochant follement aux herbes des haillons</ligne>

<ligne type="VERS3"> D'argent ; où le soleil ; de la montagne fière,</ligne>

<ligne type="VERS4"> Luit : c'est un petit val qui mousse de rayons.</ligne>

</structure>

</poeme>

Exemple n°3 :

<?xml version="1.0" encoding="iso-8859-1"?>

<front>

</div>

The text of the Convention had been

amended according to the provisions of Protocol No. 3 (ETS

No. 45), which entered into force on 21 September 1970, of

Protocol No. 5 (ETS No. 55), which entered into force on 20

December 1971 and of Protocol No. 8 (ETS No. 118), which

entered into force on 1 January 1990, and comprised also the

text of Protocol No. 2 (ETS No. 44) which, in accordance with

Article 5, paragraph 3 thereof, had been an integral part of

the Convention since its entry into force on 21 September

1970. All provisions which had been amended or added by these

Protocols are replaced by Protocol No. 11 (ETS No. 155), as

from the date of its entry into force on 1 November 1998. As

from that date, Protocol No. 9 (ETS No. 140), which entered

into force on 1 October 1994, is repealed and Protocol No. 10

(ETS No. 146) has lost its purpose.

</div>

</front>

<body>

<head id="ce.1950.en_H">Convention for the Protection of Human

Rights and Fundamental Freedoms as amended by Protocol No.

11</head>

<seg type="membrestates">The governments signatory

hereto, being members of the Council of Europe,</seg>

</item>

</list>

</div>

</body>

</text>

Le texte contient une Trame et un Cadre (chaque partie est parfaitement délimitée : balises de début et de fin explicites). Le Trameur peut travailler sur la Trame du texte et il est possible d’accéder au texte par son Cadre.

Pour les trois exemples précédents nous donnons à voir la représentation graphique construite par le Trameur du Cadre (complet) de chacun de ces textes :

Exemple n°1 :

Exemple n°2 :

Exemple n°3 :

8.4 Formats pour corpus alignés

Le Trameur intègre des fonctionnalités pour l’exploration de corpus alignés (2 ou plusieurs volets). On se reportera à la partie « Bases textométriques de textes alignés » pour une présentation de ce type de fonctionnalités.

On présente co-dessous le squelette de 3 formats de fichier permettant de structurer ce type d’alignement (ici avec 2 volets). Les 3 formats correspondent quasiment aux formats vus précédemment.

Le premier marque par un balisage « à la lexico » les 2 volets du corpus, un caractère délimiteur (ici le caractère §) segmente chaque volet en unité d’alignement (la première section du volet n°1 est alignée avec la première section du volet n°2 : Source 1 à Miroir 1) etc.

<volet="1">

TEXTE Source1 §

TEXTE Source2 §

TEXTE Source3 §

TEXTE Source4 §

<volet="2">

TEXTE Miroir1 §

TEXTE Miroir2 §

TEXTE Miroir3 §

TEXTE Miroir4 §

Dans le second format, le balisage est renforcé. Les unités d’alignement sont marquées par une balise p (tout autre nom de balise est possible).

<c>

<volet="1">

TEXTE Source1

TEXTE Source2

TEXTE Source3

TEXTE Source4

</volet>

<volet="2">

TEXTE Miroir1

TEXTE Miroir2

TEXTE Miroir3

TEXTE Miroir4

</volet>

</c>

Le dernier est au format XML. Ce format peut être enrichi ou modifié :

on peut par exemple numéroter les balises p via des attributs
le type d’attribut de la balise volet peut être différent dans les 2 balises
etc.

<?xml version="1.0" encoding="utf-8"?>

<c>

TEXTE Source1

TEXTE Source2

TEXTE Source3

TEXTE Source4

</volet>

TEXTE Miroir1

TEXTE Miroir2

TEXTE Miroir3

TEXTE Miroir4

</volet>

</c>

9 Les dictionnaires

9.1 Les formes

Le chargement de la base déclenche l’insertion des dictionnaires des formes, des lemmes, des catégories (issues de l’étiquetage avec Treetagger) respectivement dans l'onglet FORME-LEMME et dans l'onglet CATEGORIE-TAG.

Figure 6 : Le Trameur Onglet FORME

Après sélection d’une forme (ou de plusieurs) dans le dictionnaire, il est possible de déclencher différentes actions :

Figure 7 : Le Trameur Actions sur Items sélectionnés à partir des dictionnaires

la représentation de la courbe d’accroissement du vocabulaire sélectionné (les formes choisies dans le dictionnaire)

la ventilation de cette forme (ou de plusieurs) dans la partition sélectionnée (cf onglet VENTILATION).

la ventilation de cette forme (ou plusieurs) sur une sélection de parties selectionnées via le Gestionnaire de Sélection (cf onglet SELECTION).

la recherche de cette forme (ou de plusieurs) dans la représentation cartographique du Cadre infra (cf onglet CADRE).

la recherche de cette forme (ou de plusieurs) dans la représentation cartographique de la carte des sections infra (cf onglet SECTION). Si l’option « co-présence » est activée, les sections mises au jour seront celles contenant l’ensemble des formes visées (ET logique)

l’édition de la forme visée pour éventuellement la corriger (si la forme est mise à jour, tous les items de la Trame ayant cette forme seront modifiés).

l’ajout d’un niveau d’un niveau d’annotation sur la forme visée : tous les items de la Trame ayant cette forme seront modifiés pour cet ajout d’annotation (avec la valeur d’annotation fournie), les autres auront eux-aussi cette nouvelle annotation mais avec une valeur indéfinie (modifiable ultérieurement)

la correction des différents niveaux d’annotation sur la forme visée : tous les items de la Trame ayant cette forme seront modifiés pour ces modifications sur tous les niveaux d’annotation

une concordance de cette forme (ou de plusieurs) (cf onglet CONCORDANCE).

la sélection de cette forme (ou de ces formes) via ses positions sur la Trame (cf onglet SELECTION).

Ces différentes opérations sont détaillées infra.

Les opérations similaires sont disponibles pour les lemmes, les catégories et les annotations importées.

On peut rechercher des formes dans le dictionnaire en définissant un motif de recherche dans la zone de saisie « Recherche Forme(s) ». Les formes trouvées seront listées au bas de l'onglet FORME. Les opérations décrites supra sur les formes sélectionnées sont là encore disponibles.

Figure 8 : Le Trameur Onglet FORME

9.2 Les lemmes

(idem supra)

9.3 Les catégories

(idem supra)

9.4 Les annotations importées

(cf infra)

10 Accès à la Trame par le Cadre

10.1 Mise au jour de la Trame

Dans les figures qui suivent, le fichier de travail utilisé est le Dormeur du Val dont on présente ci-dessous un extrait :

La Trame du texte correspond à toutes les positions des items (délimiteurs et formes graphiques). Sur cet exemple :

En position 1, le caractère « espace » (considéré comme un délimiteur), en position 2, la forme graphique « Le », en position 3, le caractère « espace » etc.

Le Trameur produira une segmentation que l’on peut schématiser ainsi sur le début du texte :

Forme		Le		dormeur		du		val	RC		C	…
Positions	1	2	3	4	5	6	7	8	9	10	11	…

(RC = retour à la ligne)

Le Cadre du texte est matérialisé ici par des balises indiquant le début d’une partie (sous la forme <partie=valeur>). Ce balisage traduit une structuration en parties du texte (1 titre et 1 poème contenant des vers). Plus précisément, la partie STRUCTURE=TITRE recouvre les items de la position 1 à la position 8 et la partie STRUCTURE=POEME couvre les items à partir de la position 9 jusqu’à la dernière. On verra infra qu’il est possible de décrire le Cadre d’un texte de manière plus formalisée via XML.

Après chargement de la base utilisée, le Trameur a l'allure suivante :

Figure 9 : Le Trameur Onglet CADRE, base chargée

Les différentes parties constituant le Cadre sont visibles dans la zone Parties. Pour visualiser tout ou partie du Cadre, il convient de sélectionner une ou plusieurs parties, puis d’activer le bouton . Après génération du Cadre (dans notre exemple, 2 parties ont été sélectionnées), le Trameur a l'allure suivante :

Figure 10 : Le Trameur Onglet CADRE, Cadre généré

Une représentation graphique des parties constituant le texte est construite dans la zone d’édition du Cadre. Cette représentation donne à voir l’emboîtement éventuel des différentes parties : dans notre exemple, les VERS sont contenus dans la partie POEME. En cliquant (via un clic-gauche) sur le nom d’une partie, on active l’affichage de son contenu textuel (les formes i.e les mots) dans la zone d’édition de la Trame au bas de l’onglet CADRE. Dans la figure suivante, on donne à voir le contenu de la partie STRUCTURE=TEXTEPOEME :

Figure 11 : Le Trameur Onglet CADRE, contenu textuel d’une partie (les mots)

En cliquant (via un clic-droit) sur le nom d’une partie, on active l’affichage de son contenu textuel (les lemmes) dans la zone d’édition au bas de l’onglet CADRE. Dans la figure suivante, on donne à voir le contenu de la partie STRUCTURE=POEME :

Figure 12 : Le Trameur Onglet CADRE, contenu textuel d’une partie (les lemmes)

Si la base à charger est au format XML, on peut aussi construire une représentation arborescente du fichier chargé.

Figure 13 : Le Trameur Onglet CADRE, chargement d’une représentation arborescente d’une base au format XML (1)

Par défaut, le bouton est inactif ; dans le cas d’un fichier au format XML, il devient actif et permet le déclenchement de la représentation arborescente du fichier :

Figure 14 : Le Trameur Onglet CADRE, chargement d’une représentation arborescente d’une base au format XML (2)

10.2 Choix du niveau de l’annotation à afficher

Une zone de saisie disponible dans l’éditeur du CADRE et dans l’éditeur de SECTION permet de sélectionner le numéro d’annotation à utiliser pour afficher la partie ou la section visée. Rappel : par convention, les annotations associées aux items de la Trame sont typées de la manière suivante :

le numéro d’annotation n°1 correspond à « Forme »
le numéro d’annotation n°2 correspond à « Lemme »
le numéro d’annotation n°3 correspond à « Catégorie »
Toute autre annotation importée aura un numéro supérieur ou égal à 4.

Figure 15 : Le Trameur Affichage d’une partie du CADRE (annotation affichée = 1)

Figure 16 : Le Trameur Affichage d’une partie du CADRE (annotation affichée = 2)

Figure 17 : Le Trameur Affichage d’une section (annotation affichée = 3)

10.3 Recherche de chaînes

La figure suivante illustre une des fonctionnalités classiques d'un éditeur que l'on retrouve dans le Trameur : la recherche de chaîne de caractères.

Figure 18 : Le Trameur Onglet CADRE, recherche de chaînes

On dispose dans l'onglet CADRE d’une zone de saisie permettant de lancer des recherches de chaînes : "Recherche". Pour rechercher une forme, il convient de l’insérer dans la zone de saisie puis de lancer la recherche en tapant la touche « Entrée ».

Dans la figure précédente, la forme cherchée (dormeur) est présente dans la partie STRUCTURE(TITRE) : son contenu textuel est visible via un clic-gauche sur le carré associé à la partie (la croix intégrée au carré indiquant la présence de la forme visée).

On peut aussi lancer une recherche en sélectionnant une forme dans les dictionnaires disponibles (et via le raccourci clavier défini).

10.4 Recherche « incrémentale » de chaînes

On peut aussi activer un mode de recherche dit incrémentale. Le raccourci clavier Control-s active ce mode de recherche permettant de définir incrémentalement un motif de recherche.

Figure 19 : Le Trameur Onglet CADRE, recherche incrémentale de chaînes

10.5 Visualisation des différentes annotations des items de la Trame

Il est possible de visualiser les différentes annotations associées aux items présents dans la zone d’édition (toute ou une partie de la Trame). Il suffit de placer la souris sur une des formes graphiques présentes dans cette zone d’édition (mot ou lemme), une boîte d’édition contextuelle apparaît et donne des précisions sur la forme visée : forme graphique, fréquence, lemme, catégorie (et annotation complémentaire si disponible).

Figure 20 : Le Trameur Onglet CADRE, visualisation détaillée d’un item

10.6 Edition et modification des items de la Trame

Dans la même zone d’édition (forme ou lemme), il est possible d’éditer et de modifier les contenus de chaque item. Un clic-droit sur un item (forme ou lemme) déclenche l’apparition d’une fenêtre d’édition de l’item visé dans laquelle il est possible de modifier sa forme, son lemme ou sa catégorie (et toute annotation importée) :

Figure 21 : Le Trameur Onglet CADRE, édition d’un item

Après enregistrement des modifications réalisées, la fenêtre d’édition initiale est rechargée en tenant compte des modifications apportées :

Figure 22 : Le Trameur Onglet CADRE, modification d’un item

Et les différents dictionnaires impactés par ces modifications sont rechargés.

10.7 Le vocabulaire spécifique d’une partie

Le Cadre dispose d’une fonctionnalité supplémentaire pour agir sur les contenus textuels des parties repérées. On a vu supra qu’un clic-gauche sur une partie déclenchait l’affichage du contenu textuel associé à cette partie dans la zone d’édition prévue à cet effet. Le raccourci clavier control+clic-gauche sur une partie déclenche le calcul du vocabulaire spécifique[7] de la partie visée.

Figure 23 : Le Trameur Onglet CADRE, le vocabulaire spécifique d’une partie

11 La carte des sections : représentation cartographique de la Trame

L’onglet SECTION permet de donner à voir une représentation graphique du texte sous la forme d’une carte de sections (identique à celle produite par Lexico3[8] via l'outil "Carte des Sections[9]"). Le bouton permet de construire cette représentation cartographique sur la base du caractère délimiteur choisi pour délimiter les sections.

11.1 La carte des sections : une vue globale de la Trame

La carte des sections permet une visualisation du corpus découpé en sections par la promotion d'un (ou de plusieurs) caractère particulier (paragraphes, point, etc.) au statut de délimiteur de section. La carte des sections recouvre ainsi intégralement la Trame textuelle (une vue globale de la Trame).

Si on considère les 2 exemples ci-dessous, dans chacun d’eux le caractère § est intégré dans le texte pour marquer des zones.

Dans le premier exemple, le caractère § induit la présence de 6 sections.

Dans le second, on retrouve aussi six sections, mais la Trame textuelle dispose en outre d’une Cadre (des jalons du type « balise » organisant le texte en parties)

Figure 24 : Le Trameur Onglet SECTION, texte brut avec caractère « délimiteur de sections »

Figure 25 : Le Trameur Onglet SECTION, texte structuré avec caractère « délimiteur de sections »

Pour ces deux exemples le caractère délimiteur § est utilisé dans les figures suivantes pour construire la carte des sections associée :

Figure 26 : Le Trameur Onglet SECTION, construction de la carte des sections (3)

La seconde figure illustre aussi la possibilité d’introduire des éléments du Cadre dans la carte des sections.

En cliquant sur un des carrés, on active l’affichage de son contenu textuel dans la zone d’édition au bas de l’onglet SECTION.

Figure 27 : Le Trameur Onglet SECTION, édition de la Trame par une section

Paramétrage de l’affichage de la carte des sections

Figure 28 : Le Trameur Onglet SECTION, paramétrage de l’affichage

Le bouton active le chargement de la carte. Par défaut, cet affichage insère linéairement les sections et sans alignement à gauche après insertion d’un marqueur de partie. De plus, un séparateur de blocs de sections est inséré après affichage de 5 sections : ce séparateur est utilisable ensuite pour sélectionner les sections (cf infra).

· Alignement à gauche

Ce bouton est inhibé par défaut, son activation (clic-droit) permet de représenter la carte en alignant les sections à gauche après chaque marquage de partie. Désactivation de cette fonction par un clic sur le bouton

· Insertion d’un marqueur de bloc de sections

Ce bouton est actif par défaut, son inhibition permet de ne pas afficher le marqueur de blocs de sections.

Pour inhiber cette fonction : clic-droit

Pour l’activer : clic

On verra infra (cf Chantiers en cours) une illustration de l’utilisation de ces 2 derniers boutons.

11.2 La carte des sections : une vue partielle de la Trame

Si on considère cette représentation du même texte (ici, format TEI) :

Figure 29 : Le Trameur Onglet SECTION, texte TEI sans caractère « délimiteur de sections » explicite

Dans cet exemple, aucun caractère n’est disponible explicitement pour mettre au jour de manière systématique des sections.

Cependant, certains éléments du Cadre permettent de délimiter des sections particulières :

- L’élément <l>…</l> permet de mettre au jour les vers (un à un) ; dans ce cas cet élément peut définir une section correspondant à un vers

- L’élément <lg>…</lg> permet de mettre au jour les strophes (une à une) : dans ce cas cet élément peut définir une section correspondant à une strophe.

La mise en œuvre dans le Trameur de cette prise en charge des éléments du Cadre pour construire la carte des sections se déroule de la manière suivante :

Figure 30 : Le Trameur Onglet SECTION, sections définies implicitement par un élement du Cadre (avec affichage d’une autre partie : lg)

Dans la figure précédente, la case à cocher « Partie » permet de spécifier que la construction de la carte utilise un élément du Cadre (une balise) ; le nom de la balise « l » à utiliser est inséré dans la zone de saisie. Comme précédemment, la partie lg est utilisée pour marquer certaines parties dans la carte construite.

Dans l’exemple qui suit, la balise utilisée pour la représentation de la carte est la balise lg :

Figure 31 : Le Trameur Onglet SECTION, sections définies implicitement par un élement du Cadre (avec affichage d’une autre partie : body)

A la différence de la carte des sections définie précédemment, la carte des sections construite via un élément du Cadre offre ainsi une vue partielle de la Trame : celle induite par les différentes localisations des parties associées à l’élément sélectionné dans le Cadre.

11.3 La carte des sections : masquage de sections

Quelque soit le mode sélectionné pour afficher la carte des sections (caractère délimiteur ou élement du cadre), il est possible de masquer temporairement l’affichage de sections pour une ou plusieurs parties données. Dans l’exemple qui suit, la carte des sections est initialement dessinée en affichant toutes les sections :

Figure 32 : Le Trameur Onglet SECTION, masquage de sections (1)

L’entête de la figure précédente mentionne la possibilité de masquer les sections des parties dans le nom est précédé du caractère + (réciproquement, d’afficher les sections des parties dont le nom est précédé du caractère -). La figure qui suit illustre cette fonctionnalité : toutes les parties sont masquées sauf deux.

Figure 33 : Le Trameur Onglet SECTION, masquage de sections (2)

Pour inhiber tous les masquages, il faut réinitialiser la carte des sections via le bouton :

12 Accès à la Trame par la carte des sections : principales fonctionnalités

12.1 Edition de section

Une fois la carte construite, les sections sont éditables dans l’éditeur de l'onglet SECTION

Soit en cliquant sur la section visée
Soit en activant la combinaison shift+clic : cette solution permet de maintenir la sélection de la section visée pour des calculs ultérieurs (cf infra)

Figure 34 : Le Trameur Onglet SECTION, édition de section

On peut ensuite recharger l’affichage du contenu de la section en sélectionnant les annotations à visualiser :

Figure 35 : Le Trameur Onglet SECTION, édition de section, sélection des annotations

12.2 Recherche de chaînes

On dispose dans l'onglet SECTION d’une zone de saisie permettant de lancer des recherches de chaînes : "Ventilation de". Pour rechercher une forme, il convient de l’insérer dans la zone de saisie puis de lancer la recherche en tapant la touche « Entrée ».

Figure 36 : Le Trameur Onglet SECTION, recherche de chaînes

Dans la figure précédente, la forme cherchée (dormeur) est présente dans la section représentée par le carré marqué d’une croix matérialisant la présence de la forme cherchée. La coloration verte de cette section signifie que celle-ci est désormais sélectionnée pour des opérations spécifiques sur cette section (calcul de spécificité, recherche de cooccurrents, cf infra).

Le contenu textuel est visible via le raccourci clavier shift-clic sur le carré associé à la section : ce raccourci permet de maintenir cette sélection sélectionnée contrairement au simple clic sur la section qui permet son affichage mais aussi sa désélection (cf supra).

On peut aussi lancer une recherche en sélectionnant une forme dans les dictionnaires disponibles (et via le raccourci clavier défini).

12.3 Recherche « incrémentale » de chaînes

Un mécanisme similaire à celui présenté ci-dessus sur l’éditeur de la Trame dans l’onglet CADRE est disponible sur l’onglet SECTION. Le raccourci clavier Control-r active ce mode de recherche permettant de définir incrémentalement un motif de recherche.

12.4 Visualisation des différentes annotations des items de la Trame

Un mécanisme similaire à celui présenté ci-dessus sur l’éditeur de la Trame dans l’onglet CADRE est disponible sur l’onglet SECTION.

L’éditeur de la Trame de l’onglet SECTION donne à voir les items de la Trame et les annotations associées.

Figure 37 : Le Trameur Onglet SECTION, recherche de chaînes

12.5 Edition et modification des items de la Trame

De la même manière, on peut modifier les items de la Trame à travers l’éditeur de la Trame de l’onglet SECTION. Un clic-droit sur un item déclenche l’accès aux différentes annotations de l’item visé, toute modification sera enregistrée dans les dictionnaires associés.

12.6 Le vocabulaire spécifique d’une section

Un clic droit sur un carré déclenche le calcul du vocabulaire spécifique[10] de la section considérée.

Figure 38 : Le Trameur Onglet SECTION, les mots spécifiques d’une section

12.7 Le vocabulaire spécifique d’une sélection de sections de la carte

Il est possible de sélectionner une série de sections dans la carte des sections et de calculer le vocabulaire spécifique[11] de cette sélection. Pour sélectionner une section, il convient d’activer la combinaison de touches : Control+clic. Après avoir été sélectionné, le contour du carré associé à la section devient vert. Après avoir sélectionné une série de sections, on peut activer le calcul du vocabulaire spécifique de cette sélection via le bouton disponible dans l’onglet SECTION.

Figure 39 : Le Trameur Onglet SECTION, les mots spécifiques d’une sélection de sections

Ce calcul peut être fait sur tous les niveaux d’annotation de la base chargée :

Avant de lancer ce calcul, il est possible de sélectionner l’annotation utilisée pour réaliser le calcul. Pour cela il suffit de sélectionner l’annotation visée :

soit en cochant l’annotation visée forme, lemme ou catégorie

soit en donnant le numéro de l’annotation visée (puis entrée) dans la la zone de saisie

12.8 Le vocabulaire spécifique des sections de la carte contenant un motif : recherche de cooccurrents

L’onglet SECTION dispose d’un bouton permettant de calculer les cooccurrents d’un item ou d’un motif donné.

recherche des cooccurrents d’un item

(calcul des spécificités sur les sections contenant un motif donné)

Ce calcul peut être fait sur tous les niveaux d’annotation de la base chargée :

Avant de lancer ce calcul, il est possible de sélectionner l’annotation utilisée pour réaliser le calcul. Pour cela il suffit de sélectionner l’annotation visée :

soit en cochant l’annotation visée forme, lemme ou catégorie

soit en donnant le numéro de l’annotation visée (puis entrée) dans la la zone de saisie

Recherche d’un motif sur la carte puis recherche de cooccurrence :

A partir de la carte des sections, on peut rechercher un item ou un motif. On obtient une série de carré marqué par une croix indiquant la présence de l’item ou du motif. On peut ensuite lancer un calcul mettant au jour le vocabulaire spécifique de l’ensemble de ces sections. On obtient le vocabulaire spécifique[12] de l'ensemble des sections contenant l’item ou le motif initial : liste d’items qui portent soit un indice de spécificité positif soit un indice de spécificité négatif . Dans le premier cas, on aboutit en gros à une liste des cooccurrents de l’item ou du motif cherché, dans le second cas on obtient des items qui n'apparaissent pas ou peu avec l’item ou le motif cherché.

Figure 40 : Le Trameur Onglet SECTION, items spécifiques des sections contenant un motif (cooccurrents)

12.9 Le vocabulaire spécifique des sections de la carte ne contenant pas un motif

Un calcul de spécificité peut aussi être lancé sur les sections ne contenant pas le motif cherché dans la carte des sections :

Figure 41 : Le Trameur Onglet SECTION, items spécifiques des sections ne contenant pas un motif

Là encore, ce calcul peut être fait sur tous les niveaux d’annotation de la base chargée : cf supra.

12.10 Fonctionnalités complémentaires sur la carte des sections

Control-Clic sur le trait vertical entre 2 séries de 5 sections : sélection des 5 sections à sa droite

Shift–Control-Clic sur ce même trait vertical : sélection des 25 sections à sa droite (une ligne dans la carte des sections)

Shift-Control-Clic sur un carré dans la carte des sections : désélection de la section visée.

13 Concordances

L’onglet CONCORDANCE permet d’afficher les concordances des différentes annotations disponibles sur chacun des items de la Trame : forme, lemme, catégorie, annotations complémentaires. Les concordances produites sont disponibles dans 2 sous-onglets distincts : un sous-onglet avec édition des items de la concordance, un sous-onglet permettant de trier les contextes de la concordance.

Figure 42 : Le Trameur Onglet CONCORDANCE, affichage édition + affichage tri

13.1 Modes de déclenchement d’une concordance

Ces concordances peuvent être réalisées :

à partir des dictionnaires, d’une liste de segments répétés, d’une liste de séquences de termes etc. en sélectionnant les items visés dans la liste visée et en activant la requête de concordance à partir du bouton disponible dans l’onglet associé,
ou en renseignant directement les zones de saisie idoines décrites dans les figures qui suivent.

Figure 43 : Le Trameur Onglet CONCORDANCE (forme)

Figure 44 : Le Trameur Onglet CONCORDANCE (lemme)

Figure 45 : Le Trameur Onglet CONCORDANCE (catégorie)

13.2 Paramétrage d’une concordance

L’affichage de la concordance peut être paramétré de la manière suivante :

- choisir une ou plusieurs parties

- déterminer la longueur de la fenêtre graphique de la concordance (par défaut 10 formes à droite et 10 à gauche)

- choisir le type de forme à rechercher en cochant l’une des cases : Forme, Lemme, Catégorie (ou annotation importée cf infra)

- choisir l’item visé (une forme, un lemme, une valeur de catégorie ou une annotation importée)

Dans les exemples précédents, l’affichage demandé est celui d’une forme, d’un lemme puis d’une catégorie en tenant compte de la seule partition disponible.

On peut aussi activer la concordance en utilisant le mode RegExp : la recherche de la forme visée se fait en écrivant un motif exprimé sous la forme d’une expression régulière.

Une fois la concordance chargée, il est possible de la recharger en modifiant les annotations à afficher pour cette concordance. On trouve au bas de la fenêtre du concordancier une liste de cases à cocher, chacune d’elle est associée à une des annotations disponibles : en activant tel ou tel bouton, le rechargement de la concordance intègre l’affichage des annotations sélectionnées.

Si on considère cette première concordance (seule l’annotation n°1 (forme) est affichée) :

Figure 46 : Le Trameur Onglet CONCORDANCE (forme)

La sélection de nouvelles annotations et le rechargement de la concordance modifie l’affichage de cette concordance :

Figure 47 : Le Trameur Onglet CONCORDANCE (rechargement)

En activant le bouton , il est possible d’exporter une concordance au format HTML.

13.3 Editeur de concordance

Comme dans l’onglet CADRE et dans l’onglet SECTION, il est possible dans l’onglet CONCORDANCE de modifier les annotations associées à tous les items de la concordance affichée.

Figure 48 : Le Trameur Onglet CONCORDANCE, édition et modification d’un item pivot

Toute modification entraîne le rechargement des différentes ressources impactées par ces modifications.

14 Marquage des annotations de la Trame

14.1 Annotation « simple »

Le Trameur dispose de 3 éditeurs vus supra :

- Editeur du Cadre

- Editeur de la Carte des sections

- Editeur du concordancier

Ces 3 éditeurs disposent d’une fonctionnalité permettant de colorer dans la zone d’édition les items possédant une annotation donnée. Cette fonctionnalité est activée par le bouton présent dans chacun des onglets contenant ces éditeurs.

Figure 49 : Le Trameur Editeur CADRE

Figure 50 : Le Trameur Editeur SECTION

Figure 51 : Le Trameur Editeur CONCORDANCE

L’activation du bouton déclenche le menu suivant :

Figure 52 : Le Trameur Sélection des annotations à colorier (1)

Ce menu permet de choisir la valeur de l’annotation à colorier, le numéro de l’annotation correspondante et la couleur à utiliser : tous les niveaux d’annotation sont accessibles pour cette fonctionnalité.

Par exemple, dans la figure suivante, on choisit l’étiquette « NOM » associée à l’annotation n°3 et la couleur visée par la palette de choix :

Figure 53 : Le Trameur Sélection des annotations à colorier (2)

Le résultat dans les différents éditeurs est le suivant :

- Editeur de la Carte des sections

Figure 54 : Le Trameur Marquage des annotations sur les items édités (1)

- Editeur du Cadre

Figure 55 : Le Trameur Marquage des annotations sur les items édités (2)

- Editeur du concordancier

Figure 56 : Le Trameur Marquage des annotations sur les items édités (3)

On peut « empiler » les couleurs et marquer plusieurs annotations par un système de couleurs variées dans la zone d’édition : on choisit ci-dessous une autre valeur d’annotation (ADJ) et on applique la coloration dans l’éditeur de la carte des sections :

Figure 57 : Le Trameur Sélection d’une nouvelle annotation à colorier

Le résultat dans les éditeurs est le suivant :

Figure 58 : Le Trameur Marquage des annotations sur les items édités

14.2 Annotation de type « relation »

Si l’annotation recherchée est de type « relation » entre 2 items (cf Graphe de relations infra), la source et la cible de la relation sont marquées dans l’éditeur.

Pour illustrer cette fonctionnalité, on utilise dans l’exemple qui suit la base textométrique intitulée Base "Corpus de contes français" (Fairy Tales Corpus, FTC) construite à partir des ressources développées par Ismaïl El Maarouf (base décrite en détail dans la partie « Graphes de relations infra).

On considère par exemple ici la section suivante de cette base :

Figure 59 : Le Trameur Edition d’une annotation de type « relation »

Dans celle-ci, l’item en position n°4 (la forme « jour ») possède des annotations suivantes :

Annotation n°1 (forme) : jour
Annotation n°2 (lemme) : jour
Annotation n°3 (POS) : NOM
Annotation n°4 (identifiant) : 2 (cette annotation permet d’identifier chaque item par un identifiant unique. Remarque : la position de chaque item est une autre manière d’identifier les items de la Trame)
Annotation n°5 : annotation référentielle non définie
Annotation n°6 : annotation sémantique non définie
Annotation n°7 : XXX(1), YYY(4)

Cette dernière annotation induit des relations sur l’item courant : par exemple celle notée YYY(4). Cette valeur d’annotation signifie que l’item courant est en relation de type YYY avec un autre item de la Trame (celui dont l’identifiant est 4)

Si on souhaite afficher par exemple les relations de type YYY, l’activation du bouton déclenche le menu suivant :

Figure 60 : Le Trameur Sélection d’une relation à colorier

La première ligne permet comme précédemment de définir la valeur de l’annotation visée (YYY stockée dans l’annotation n°7)

La seconde permet de sélectionner l’annotation dans laquelle sont enregistrés les identifiants des items :

· soit l’identifiant est stocké dans un niveau d’annotation particulier : c’est le cas ici, l’annotation n°4 a été construite pour enregistrer un identifiant unique sur chaque item de type non délimiteur

· soit il correspond à la position de l’item (cette identification par la position peut être considérée comme l’identification par défaut et par construction de chacun des items de la Trame)

Le résultat produit est cette fois-ci le suivant :

Figure 61 : Le Trameur Marquage des annotations de type « relation » sur les items édités

L’item en position n°4 est colorié (source de la relation YYY(4))

L’item associé à identifiant n°4 (cible de la relation) est souligné (la forme « un »)

Dans cet exemple, l’item en position n°15 a une relation similaire vers la même cible.

15 Vocabulaire spécifique

L’analyse des spécificités permet de porter un jugement sur la fréquence de chacune des unités textuelles dans chacune des parties du corpus[13].

Tous les résultats d’un calcul de spécificités sont insérés dans l’onglet STAT (ou SPECIF). Ils sont associés à des processus de calcul disponibles dans différents onglets.

Tous les modules intégrant un calcul de spécificité peuvent déclencher ce calcul sur tous les niveaux d'annotation disponibles dans la base en cours d'analyse : tous les niveaux d'annotation ajoutés, importés etc. sont accessibles pour le calcul des spécificités.

Localisation du paramétrage de l’annotation pour le calcul des spécificités et modules associés :

Onglet SECTION

calcul des spécificités des sections sélectionnées
calcul des spécificités des sections contenant un motif donné (i.e cooccurrent du motif visé)

Onglet STAT (ou SPECIF)

calcul des spécificités sur une partie donnée (sélectionnée via PCLC)
spécificités totales sur une partition (TFG)
AFC

Onglet SELECTION - sélection sur Cadre (i.e sélection de parties)

calcul des spécifs sur une partie donnée

Le paramétrage de l’annotation visée est similaire dans ses trois onglets :

Figure 62 : Le Trameur Sélection d’annotation pour calcul de spécificités

3 cases à cocher permettent de sélectionner les annotations : forme (annotation n°1), lemme (annotation n°2) ou catégorie (annotation n°3). Pour les autres niveaux d’annotation, il suffit de donner son numéro dans la zone de saisie (puis entrée), le nom de l’annotation choisie sera visible en regard de son numéro : dans la figure précédente, l’annotation n°1 (forme) est sélectionnée.

Toutes les opérations (concordance, ventilation, etc) activables sur les résultats de spécificités sont disponibles sur tous les niveaux d’annotation (cf infra).

Les résultats d’un calcul de spécificités sont insérés dans 2 sous-onglets de l’onglet STAT (ou SPECIF), chacun d’eux permet d’activer des opérations similaires :

sous-onglet SPECIF:

Les résultats sont affichés ici en format texte. Les actions disponibles sur les items affichés sont activables par des raccourcis clavier (encadrés en rouge) :

Figure 63 : Le Trameur Opérations disponibles sur les items issus d’un calcul de spécificités

Sélection : tous les items ayant la forme visée sont sélectionnés (cf Gestionnaire de Sélection)
Concordance : calcul d’une concordance sur toutes les positions des items ayant la forme visée
Ventilation-section : ventilation sur la carte des sections de toutes les positions des items ayant la forme visée
Ventilation: ventilation sur le CADRE de toutes les positions des items ayant la forme visée

sous-onglet SPECIF-TRI

Dans cet onglet, les résultats affichés sous forme de colonnes donnent à voir pour chaque item : l’item visé, son indice de spécificité, sa fréquence totale, sa fréquence dans la partie et le numéro d’annotation de l’item (1 : forme, 2 : lemme, 3 : catégorie, etc.).

Figure 64 : Le Trameur Opérations disponibles sur les items triables issus d’un calcul de spécificités

Dans cet onglet, les processus de calcul sont activables via les boutons disponibles au dessus des listes produites. Il suffit de sélectionner un ou plusieurs items dans la liste puis d’activer le bouton idoine (ventilation, ventilation sur Cadre, ventilation sur carte des sections, concordance).

Dans le cas d’une ventilation sur la carte des sections, si l’option « co-présence » est activée, les sections mises au jour seront celles contenant l’ensemble des formes sélectionnées dans la liste (ET logique).

Enfin, dans cet onglet, il est possible de trier chacune des colonnes en cliquant sur le titre de la colonne visée.

16 Graphiques de ventilation

16.1 Ventilation par partie d’un item

L’onglet VENTILATION permet d’afficher des graphiques de ventilation de formes, de lemmes ou de catégories dans une partition sélectionnée :

Figure 65 : Le Trameur Onglet VENTILATION paramétrage d’une ventilation

Dans l’exemple suivant, l’item recherché est celui correspondant à la forme « patriote ».

On peut aussi activer la construction du graphe de ventilation en utilisant le mode RegExp : la recherche de la forme visée se fait en écrivant un motif exprimé sous la forme d’une expression régulière.

Figure 66 : Le Trameur Onglet VENTILATION affichage d’une ventilation (mode ligne)

\bpatriot.*\b représente toutes les formes commençant par ‘patriot’ et qui se termine par n’importe quelle chaîne de caractères (dans notre texte de travail, les chaînes couvertes par cette expressions sont par exemple ‘patriote’, ‘patriotes’ etc). Le résultat de la ventilation de ce motif est le suivant :

Figure 67 : Le Trameur Onglet VENTILATION mode regrexp

16.2 Ventilation par partie d’une sélection d’items

Il est aussi possible de construire des graphiques de ventilation d’une sélection d’item (forme, lemme, catégorie, segment) à partir des listes disponibles. Dans les figures qui suivent, on sélectionne des formes dans le dictionnaire des formes, puis on active la ventilation de ces formes :

Figure 68 : Le Trameur Ventilation d’une sélection d’items

16.3 Courbe d’accroissement du vocabulaire

L’onglet VENTILATION permet aussi d’afficher la courbe d’accroissement du vocabulaire sur la base de travail :

- soit sur le corpus complet, en choisissant éventuellement une partition

- soit sur chaque partie de la partition sélectionnée

Figure 69 : Le Trameur Onglet VENTILATION, courbe d’accroissement du vocabulaire

16.5 Ventilation d’une sélection d’items associés à différents niveaux d’annotation

Il est possible de construire un graphique de ventilation sur une sélection d’items relevant de différents dictionnaires (croisement d’annotation). Après les avoir sélectionnés, l’activation du bonton visible sur la figure suivante déclenche la construction de cette distribution. Ci-dessous, un graphique de ventilation donnant à voir la distribution de la forme « patriotes » et du lemme « patriote » :

Figure 70 : Le Trameur Onglet VENTILATION, ventilation croisée d’annotations

16.4 Ventilation d’une sélection d’items sur une sélection de parties

Le Gestionnaire de Sélection permet de sélectionner un certain nombre de parties (cf infra). Une fois ces parties sélectionnées, il est possible de construire un graphique de ventilation d’une sélection d’items sur cette sous-partition. Les figures suivantes illustrent le processus en 2 temps :

Sélection de parties :

Figure 71 : Le Trameur Onglet VENTILATION, ventilation d’une sélection d’items (1)

Ventilation d’une sélection d’éléments sur les parties visées :

Figure 72 : Le Trameur Onglet VENTILATION, ventilation d’une sélection d’items (2)

Figure 73 : Le Trameur Onglet VENTILATION, ventilation d’une sélection d’items (3)

17 Segments répétés

La fenêtre principale dispose d’un bouton permettant de calculer les segments répétés de la base puis d’importer la liste obtenue dans l’onglet SEGMENT. Le calcul des segments est paramétrable (cf onglet PARAM) : on peut choisir la longueur maximale des segments à rechercher ou leur fréquence minimale. Si ces 2 derniers paramètres ne sont pas renseignés tous les segments de fréquence au moins égale à 2 et de longueur au plus égale à 12 items sont recherchés. Le calcul des segments répétés peut se faire en selectionnant le niveau d'annotation à prendre en compte pour construire ces segments : Annotation n°1 (forme), Annotation n°2 (lemme) ou Annotation n°3 (catégorie) etc.

Figure 74 : Le Trameur Onglet SEGMENT

Remarque : Les segments apparaissent dans le volet supérieur de l’onglet SEGMENT.

Après sélection d’un segment (ou de plusieurs), il est possible de déclencher :

la recherche de cette forme (ou de plusieurs) dans la représentation cartographique du Cadre infra (cf onglet CADRE).
la recherche de cette forme (ou de plusieurs) dans la représentation cartographique de la carte des sections infra (cf onglet SECTION).
une concordance des segments sélectionnés.

On peut aussi rechercher des segments contenant une forme donnée en utilisant les zones de saisie disponibles sur la gauche de l’onglet SEGMENT.

Figure 75 : Le Trameur Onglet SEGMENT

Après sélection d’un segment (ou de plusieurs), il est possible de déclencher :

la recherche de ce segment (ou de plusieurs) dans la représentation cartographique du Cadre infra (cf onglet CADRE).
la recherche de ce segment (ou de plusieurs) dans la représentation cartographique de la carte des sections infra (cf onglet SECTION).
la concordance de ce segment (ou de plusieurs) (cf onglet CONCORDANCE).
la ventilation de ce segment (ou de plusieurs) (cf onglet VENTILATION).

18 Cooccurrences – Poly-Cooccurrences

L'onglet COOC permet de lancer des modules de calculs de cooccurrences et de poly-cooccurrences sur la base chargée. Les modules disponibles s’inscrivent dans la démarche mise en œuvre dans le travail de William Martinez (2002, 2003, 2006).

Une cooccurrence désigne l’apparition de deux mots en même temps et dans le même contexte.
Le terme poly-cooccurrence désigne les attractions lexicales au-delà de la cooccurrence binaire.

Le module de poly-cooccurrences intégré reprend l’algorithme décrit dans [Martinez, 2006] :

On calcule pour le pôle A les cooccurrents spécifiques A₁, A₂ et A₃

Dans leurs contextes communs, on calcule pour les pôles A+A₁ les cooccurrents spécifiques A₁₁ et A₁₂
Les pôles A+A₁+A₁₁ont pour cooccurrent spécifique A₁₁₁

On examine les cooccurrents de A+A₁+A₁₁+A_111 :

Les pôles A+A₁+A₁₁+A₁₁₁ n'ont pas de cooccurrent spécifique : l'exploration s'interrompt pour ce chemin

Les pôles A+A₁+A₁₂ ont pour cooccurrent spécifique A₁₂₁

On examine les cooccurrents de : A+A₁+A₁₁+A₁₂₁:

Etc.

Dans leurs contextes communs, on calcule pour les pôles A+A₂ les cooccurrents spécifiques A₂₁ et A₂₂

Etc.

Durant l’exploration, différents filtrages conditionnent l'épuisement des explorations contextuelles et réduisent le bruit dans les résultats pour privilégier l’information la plus spécifique : seuils maximaux de fréquence et de spécificité du cooccurrent.

18.1 Paramétrage et lancement des modules

Pour le calcul des cooccurrents, la zone de paramétrage permet de :

· fournir la forme pôle (simple ou complexe via une regexp)

· définir une co-fréquence minimale

· définir le seuil utilisé par le calcul de spécificité mis en œuvre par ce calcul

· définir l’indice de spécificité minimale pour filtrer les candidats cooccurrents

· définir le type d’unité contextuelle à utiliser pour le calcul (2 types de contextes sont possibles)

· préciser l’annotation à utiliser pour le calcul (forme, lemme, catégorie, etc.)

· prendre en compte une stop-liste (ou ajouter des éléments dans une stop-liste)

Les valeurs fournies par défaut pour certains paramètres sont en général adéquates pour ce type de calcul.

La figure suivante donne à voir cette zone de paramétrage :

Dans la zone de paramétrage du calcul des cooccurrents, une case à cocher permet de définir le pôle sous la forme d’une expression régulière.

L’unité contextuelle retenue pour la calcul peut être définie de 2 manières différentes

L’unité contextuelle est définie en fournissant

soit une liste de caractères délimiteurs permettant de définir des contextes délimités par ces caractères,
soit en spécifiant une zone du Cadre (une balise de partie) à utiliser pour délimiter les zones visées (une partie donc) ; dans ce cas il faut cliquer sur la case à cocher « Partie » après avoir fourni la balise à prendre en compte pour définir les contextes

L’unité contextuelle est définie par un nombre d’item à prendre en compte à droite et à gauche du pôle (par défaut 10 items de chaque côté)

La première solution est le choix par défaut. Pour la modifier, il suffit de cliquer sur la case à cocher « type de contexte ».

Enfin, le calcul des cooccurrents/polycooccurrents peut se faire en sélectionnant le niveau d'annotation à prendre en compte pour construire ces séquences : Annotation n°1 (forme), Annotation n°2 (lemme) ou Annotation n°3 (catégorie) etc.

18.2 Mise en œuvre du calcul

Les figures qui suivent illustrent la démarche mise en œuvre pour construire des listes de cooccurrents puis des graphes donnant à voir les poly-cooccurrents.

Utilisation d’une stop-liste

Figure 76 : Le Trameur Onglet COOC, importation d’une stop-liste

Figure 77 : Le Trameur Onglet COOC, édition de la stop-liste

Etape n°1 : Calcul des cooccurrents

Figure 78 : Le Trameur Onglet COOC, étape n°1 : module Cooccurrents (2 types d’unités contextuelles)

Etape n°2 : Calcul des polycooccurrents

Figure 79 : Le Trameur Onglet COOC, étape n°2 : module Polycooccurrents

Dans les 2 graphes produits, les arcs connectant des nœuds portent un label regroupant 3 indications (disponibles aussi dans les colonnes de la liste des cooccurrents) : co-fréquence (spécificité) (contextes). Par exemple, pour la forme chien à partir du pôle patriotes on trouve la notation 10(8)10 qui indique que le cooccurrent apparaît 10 fois à côté du pôle avec une spécificité de 8 dans un total de 10 contextes. La représentation de ces arcs permet aussi de mettre en avant de manière graphique 2 de ces indications statistiques : la couleur du trait dépend de l’indice de spécificité et l’épaisseur du trait dépend du nombre de contextes (la légende précise les valeurs dans les 2 cas).

18.3 Cooccurrents et segments répétés

Le calcul des cooccurrents / polycooccurrents peut aussi être activé en intégrant les segments répétés si ce module a déjà été lancé.

Choix d’un pôle de type SR

Figure 80 : Le Trameur Onglet COOC, un pôle de type SR

Si le calcul des SR a déjà été activé, il est possible de calculer les cooccurrents / polycooccurrents d’un pôle exprimé sous la forme d’un segment répété.

Intégration des SR dans les calculs de cooccurrence

De même, il est possible d’intégrer les segments disponibles dans le calcul des cooccurrents / polycooccurrents : la case à cocher idoine rend cette option disponible.

Figure 81 : Le Trameur Onglet COOC, Coocs + SR

18.4 Sélection des chemins de cooccurrences à examiner

Figure 82 : Le Trameur Onglet COOC, Filtrage des polycoocs

Le calcul des chemins de polycoocurrence se fait sur la base de la liste des cooccurrents du pôle choisi.

Par défaut le calcul des polycooccurrents est réalisé en traitant tous les cooccurrents du pôle.
Il est aussi possible de lancer le calcul des polycooccurrents sur une sélection de cooccurrents du pôle.

Dans la figure ci-dessus, la sélection d’un seul cooccurrent du pôle choisi permettra de ne calculer que la polycooccurrence initiée par cette sélection (coprésence du pôle et du cooccurrent sélectionnée).

18.5 Fonctionnalités complémentaires sur les résultats produits

Les résultats produits par ces 2 modules sont insérés dans l’onglet COOC et sont associés à des processus de calcul déjà disponibles dans d’autres onglets :

Actions sur la liste des cooccurrents :

Il suffit de sélectionner un ou plusieurs éléments dans la liste des cooccurrents puis d’activer l’opération visée (ventilation, ventilation sur Cadre, ventilation sur carte des sections, concordance).

Actions sur le graphe des cooccurrent ou des polycoccurrents

- le raccourci clic-droit sur un nœud du graphe déclenche le calcul de la concordance de la forme associée au nœud visé

- le raccourci control-clic sur un nœud permet de le sélectionner

Des nœuds du graphe étant sélectionnés, on peut ensuite les projeter sur la carte des sections :

Si l’option « co-présence » est activée, les sections mises au jour seront celles contenant l’ensemble des formes visées (ET logique) : on peut ainsi visualiser en contexte les chemins de polycooccurrences calculés précédemment.

19 Extraction de patrons et graphes de mots

19.1 Extraction de patrons (recherche sur un niveau d’annotation)

Une base de travail étant chargée dans le Trameur, il est possible de réaliser une extraction de patron sur la base des annotations associées à chaque item de la Trame. Les séquences de termes à construire pour un patron donné peuvent être définies sur les catégories morphosyntaxiques déterminées par treetagger ou sur les annotations importées. Pour lancer cette recherche de patrons, il faut se placer dans l’onglet PATRON :

Figure 83 : Le Trameur onglet PATRON

Dans les figures qui suivent, nous allons illustrer cette extraction de patron en utilisant notre fichier de travail et en recherchant tout d’abord le patron « NOM ADJ» sur l’annotation n°3 (les catégories construites par treetagger) puis le patron « orange rouge bleu » sur l’annotation n°4 importée, les couleurs associées à chaque item de la Trame (cf partie suivante pour une présentation de l’importation d’annotation). Avant de lancer la génération de la liste de séquences de termes, il convient de choisir le niveau d’annotation choisi pour définir le patron ; par défaut, ce niveau (le numéro 3) est celui qui est associé aux catégories construites par treetagger. Pour choisir un numéro correspondant à un système d’annotation importé, il suffit de donner son numéro (numéro 4[14] ou supérieur). Pour enregistrer le patron visé, il faut activer le bouton . Ce bouton déclenche l’apparition d’une fenêtre contenant un certain nombre de zones de saisie permettant de définir les constituants du patron. Le nombre de zones de saisie correspond à la valeur (modifiable) associée à l’étiquette : « Nombre d’items du patron » dans l’onglet PATRON. L’écriture des constituants d’un patron peut se faire en utilisant des expressions régulières si ce paramétrage a été au préalable défini dans l’onglet PATRON.

Figure 84 : Le Trameur zone d’enregistrement d’un patron

Après avoir renseigné les valeurs des éléments constitutifs du patron visé, le bouton « Enregistrer » déclenche la génération des séquences de termes (via leurs formes) associées au patron visé. Cette liste sera intégrée dans la zone d’édition gauche de l’onglet PATRON.

Exemple 1 :

Figure 85 : Le Trameur écriture d’un patron

Figure 86 : Le Trameur liste des séquences associées au patron

Exemple 2 :

Figure 87 : Le Trameur écriture et paramétrage d’un patron

Figure 88 : Le Trameur liste des séquences associées au patron

dans notre texte de travail, les couleurs associés aux formes sont, pour le début du texte :

19.2 Extraction de patrons (avec croisement d’annotations)

Cette fonctionnalité permet d’extraire un patron en décrivant initialement ces composants sur des niveaux d’annotations différents. Pour illustrer cette fonctionnalité, nous allons utiliser la base Prématurés 96[15] : dans cette base, chaque item de la Trame est associé à 4 annotations : forme (niveau 1), lemme (niveau 2), catégorie (niveau 3), annotation sémantique (niveau 4).

1. Paramétrage de l’extraction :

Figure 89 : Le Trameur Extraction de patron (croisement d’annotation)

2. Paramétrage du patron

Figure 90 : Le Trameur Extraction de patron (croisement d’annotation)

On cherche donc ici un patron de longueur 2, dont le premier composant porte la valeur « être-humain » (annotation de niveau 4 : sémantique) et dont le second porte la valeur AMS (Adjectif Masculin Singulier) (annotation de niveau 3 : POS). Les termes extraits seront affichés suivant leur forme graphique.

Résultat produit : patron « être-humain AMS »

Figure 91 : Le Trameur Extraction de patron (croisement d’annotation)

Si la case à cocher RegExp est activée, l’écriture des composants du patron peut se faire en décrivant ces composants par une expression régulière.

19.3 Actions sur les séquences extraites à partir d’un patron donné

Les séquences de termes associées à un patron donné sont réutilisables pour des opérations déjà disponibles dans les autres onglets :

Concordance : calcul d’une concordance sur toutes les positions des séquences sélectionnées
Ventilation-section : ventilation sur la carte des sections de toutes les séquences sélectionnées
Ventilation-Cadre : ventilation sur le Cadre de toutes les séquences sélectionnées
Ventilation-partie : ventilation de toutes les séquences sélectionnées sur une partie donnée

Les figures qui suivent illustrent de nouveau la démarche à suivre pour lancer une recherche de patron puis pour déclencher les opérations sur des éléments de la liste de termes produite :

Paramétrage de l’extraction de patron

Figure 92 : Le Trameur Paramétrage de l’extraction du patron visé et de l’affichage des séquences extraites

Sélection des termes puis activation des calculs visés :

Figure 93 : Le Trameur Affichage des séquences extraites sur la base du patron visé

Figure 94 : Le Trameur Ventilation-partie d’une liste de séquences sélectionnées

Figure 95 : Le Trameur Concordance d’une liste de séquences sélectionnées

Figure 96 : Le Trameur Ventilation-section d’une liste de séquences sélectionnées

19.4 Graphes de mots avec Le Trameur

On peut ensuite représenter la liste de séquences de termes associés à un patron sous la forme d’un graphe de mots donnant à voir la proximité entre ces mots induite par le patron visé. Dans l’exemple présenté infra, le texte de travail est un extrait d’un débat télévisé.

Pour générer ce graphe, il convient de renseigner la zone de saisie « Patron-2-graphe » :

1. si le motif saisi est vide, le programme construit le graphe complet donnant à voir l’ensemble des relations entre les mots des séquences construites

Figure 97 : Le Trameur génération du graphe de mots complet associé à un patron

2. si le motif saisi n’est pas vide, le programme construit le graphe donnant à voir l’ensemble des relations entre les mots des séquences construites et contenant le motif.

Dans l’exemple ci-dessous, le motif « public » permet de donner à voir toutes les relations entre les éléments des séquences construites contenant ce motif.

Figure 98 : Le Trameur génération du graphe de mots associé à un patron et contenant un motif

19.5 Graphes de mots avec Pajek

On peut aussi exporter la liste de séquences de termes associées à un patron dans un format compatible avec l’outil de représentation de réseaux Pajek[16]. On se reportera à la page en ligne « Des Textes aux graphes » pour avoir des informations complémentaires sur la démarche suivie.

Cet export se déroule en 2 temps :

Transformation du fichier contenant la liste des séquences associées à un patron au format GRAPHML[17].
Génération de cette même liste au format Pajek en utilisant une feuille de styles fournie avec le Trameur (GraphML2Pajek.xsl disponible dans le répertoire de travail du Trameur).

Pour déclencher cet export, il faut activer le bouton . L’export terminé, le fichier au format GRAPHML est inséré dans la zone d’édition droite de l’onglet PATRON et une nouvelle fenêtre d’édition est activée, elle contient le fichier au format Pajek.

Figure 99 : Le Trameur export au format Pajek

La figure qui suit est une illustration d’un graphe construit avec Pajek. Le texte de travail est le texte Duchn.txt (Le Père Duchesne) disponible dans le dossier textes. Le patron visé est là encore NOM ADJ.

Figure 100 : Le Trameur export NOM ADJ au format Pajek sur Duchn

Figure 101 : Le réseau NOM ADJ de Duchn via Pajek

Dans Pajek, cliquer sur « Draw », puis sur « Layout » et choisir l’option, puis sur « Export » pour exporter le résultat.

20 Calculs textométriques complémentaires

Figure 102 : Calculs textométriques complémentaires

Dans cette partie, nous décrivons les fonctionnalités disponibles dans l’onglet STAT (ou SPECIF). Ces différents calculs se font en sélectionnant au préalable le niveau d'annotation à prendre en compte dans les calculs ; pour le moment, on peut sélectionner : Annotation n°1 (forme), Annotation n°2 (lemme) ou Annotation n°3 (catégorie).

Figure 103 : Sélection du niveau d'annotation pour calculs lexicométriques complémentaires

20.1 Tableau lexical d’une partition

Le bouton permet de calculer le tableau lexical des items (forme ou lemme ou catégorie) d’une partition sélectionnée dont la fréquence est supérieure à un seuil donné et dont l’indice de spécificité est lui aussi supérieur à un seuil donné. Les lignes de ce tableau à double entrée sont constituées par les ventilations et les indices de spécificité des différents items dans les différentes parties de la partition choisie. Le terme générique k(i,j) du tableau est égal au nombre de fois que l’item i est attestée dans la partie j ou à son indice de spécifité dans la même partie.

Figure 104 : Paramétrage TFG ; choix des paramètres de calcul, de l’annotation et de la partition

Pour lancer ce calcul, il faut :

sélectionner le niveau d’annotation visé ;
sélectionner une des partitions disponibles dans la liste fournie sur la partie gauche de l’onglet STAT (ou SPECIF) ;
fixer les valeurs des paramètres (fréquence, seuil) ;

L’activation du bouton déclenche ensuite le calcul dont les résultats s’affichent dans l’onglet TFG

Figure 105 : Tableau lexical (annotation n°1 : forme)

Figure 106 : Tableau lexical (annotation n°3 : catégorie)

Pour chaque ligne, associée à un item donné, on trouve successivement, la fréquence et l’indice de spécificité de cet item dans toutes les parties de la partition sélectionnée.

20.2 AFC : Analyse Factorielle des Correspondances

Le bouton permet de réaliser une analyse factorielle des correspondances sur l'ensemble des parties du corpus. Le paramétrage permet de fixer entre autres le nombre des unités textuelles prises en compte dans l'analyse. Par défaut, l'analyse prend en compte les unités dont la fréquence est supérieure à 10.

Pour lancer ce calcul, il faut :

sélectionner le niveau d’annotation visé ;
sélectionner une des partitions disponibles dans la liste fournie sur la partie gauche de l’onglet STAT (ou SPECIF) ;
fixer les valeurs des paramètres (fréquence, seuil) ;

L’activation du bouton déclenche ensuite le calcul dont les résultats s’affichent dans l’onglet AFC. Les parties du corpus apparaissent sur le plan des deux premiers axes factoriels extraits par l'analyse.

Figure 107 : AFC

En positionnant la souris sur une des parties, ses coordonnées dans le graphique sont affichées :

Figure 108 : AFC (position)

On peut ensuite sélectionner (clic gauche), directement sur la carte produite, une partie ou un groupe de parties. Les contours des parties sélectionnées apparaissent alors en surbrillance rouge. Cette sélection permet de calculer des spécificités sur le groupe de parties sélectionnées via un clic-droit sur le graphique.

Figure 109 : AFC (sélection)

On peut aussi directement activer le calcul des spécificités d’une partie donnée via la combinaison de touche shift+clic sur la partie visée.

Le calcul de l’AFC peut aussi être lancé avec une option complémentaire permettant d’afficher dans le graphique final les dix items les plus spécifiques sur la partie visée. Pour activer cette option, il faut cocher la case AFC+TFG :

Figure 110 : AFC (affichage des mots spécifiques de la partie)

Le calcul de l’AFC sur une partition donnée déclenche aussi l’affichage :

dans l’onglet FACTEURS : des facteurs construits lors du calcul de l’AFC permettant de résumer (de décrire brièvement) les variables actives initiales ;

Figure 111 : Les facteurs de l’AFC

dans l’onglet PCLC : des principales caractéristiques lexicométriques des différentes parties de la partition sélectionnée.

Figure 112 : PCLC d’une partition

Un premier calcul de l’AFC ayant été lancé, il est possible de relancer le calcul en sélectionnant des parties de la partition visee à ne pas prendre en compte pour le calcul : les parties selectionnées dans la liste des PCLC ne seront pas integrées au calcul.

20.3 Intégration de modules R (phase 1)

Cette partie décrit la mise à jour mise en œuvre à partir de la version 11.00 du Trameur permettant de lancer des modules R (AFC, ACP, CAH) via la librairie factoMineR (http://factominer.free.fr/index_fr.html)

Pour illustrer ces fonctionnalités, on utilise ici la base textométrique intitulée « Base des états finaux du corpus BROUILLONS (ANR ECRITURES[18]) » :

Cette base rassemble 19 « états finaux » issus de 19 dossiers[19] du corpus BROUILLONS (ANR ECRITURES). Chaque item de la Trame est associé à 3 niveaux d’annotation : forme, lemme, catégorie. On présente ci-dessous un extrait de la Trame de cette base via une concordance :

Les items associés à la forme (annotation n°1) « nous » ont été annotées via le Trameur : leur catégorie (annotation n°3) a été modifiée pour prendre les valeurs suivantes :

Mise en œuvre des modules R dans le Trameur

Les modules R sont disponibles dans l’onglet STAT qui a désormais l’allure suivante :

Figure 113 : Modules R (1)

Le fichier de données utilisés par R est généré dynamiquement dans le dossier contenant la base de travail. Les 3 modules produisent des sorties PDF (rassemblant les graphiques produits par R) qui sont stockées dans le sous-dossier export du dossier contenant la base de travail.

Figure 114 : Modules R (2)

Par défaut, les 3 modules utilisent l’annotation sélectionnée dans le paramétrage de l’onglet STAT (en haut à gauche) et les items de fréquence supérieure à celle du paramètre freq (même zone de paramétrage, en haut à gauche).

Le paramètre Ind permet de spécifier le nombre d’item (forme, lemme, catégorie…) qui seront projetés sur les graphiques de l’AFC ou de l’ACP.
Le paramètre Classe permet de spécifier le nombre de classes à mettre au jour pour le module CAH.
Le paramétre Sélection permet de modifier le tableau de données en entrée de R en ne gardant que les items préalablement sélectionnés via le Gestionnaire de Sélection.

Illustration sur la base « Etats finaux BROUILLONS »

Calcul sur base complète

La base étant chargée, on active le calcul de l’AFC via R (paramétrage par défaut) via le bouton idoine, on donne à voir ci-dessous un extrait de la sortie PDF produite :

Figure 115 : AFC via R

De même pour l’ACP :

Figure 116 : ACP via R

De même pour le module CAH en modifiant ici le calcul pour travailler sur l’annotation n°3 (catégorie) :

Figure 117 : CAH via R

Calcul via le Gestionnaire de Sélection

On souhaite désormais que les calculs soient faits uniquement sur les items de type VERBE et ceux correspondant aux différents types de « nous ».

Pour repérer ces items, on commence par les sélectionner via le Gestionnaire de Sélection (cf infra) : recherche en 2 temps, les « nous » puis les verbes (cf figures suivantes) :

Figure 118 : Sélection des items pour les modules R

Au final, le Gestionnaire de Sélection contient tous les items recherchés, on prend soin de tous les sélectionner :

Figure 119 : Items sélectionnés dans la Gestionnaire de Sélection

Les items pertinents étant sélectionnés, on peut désormais lancer les modules R sur ces items uniquement :

Figure 120 : Paramétrage R pour travailler avec le Gestionnaire de Sélection

Il peut être nécessaire/utile de modifier aussi les paramétres Ind et/ou Classe.

Calcul de l’AFC

Figure 121 : AFC via R sur le contenu du Gestionnaire de Sélection

Calcul de la CAH

Figure 122 : CAH via R sur le contenu du Gestionnaire de Sélection

20.4 Corpus chronologiques : barycentre temporel, coefficient de Von Neumann

Référence : "Les séries textuelles chronologiques", André Salem, Histoire & Mesure, 1991 6-1-2 pp. 149-175

Le calcul du barycentre temporel et de l’indice de Von Neuman, présenté dans l’article d’André Salem, est disponible dans l’onglet STAT via le bouton .

Le résultat permet la mise au jour de « termes évolutifs » ; il se présente sous la forme d’un tableau qui a l’allure suivante (illustration ici sur le corpus CFDT présenté dans l’article cité précédemment) :

Figure 123 : Barycentre temporel et coefficient de Von Neumann

Pour tous les items de fréquence supérieure à la fréquence minimale fixée, le tableau donne à voir la ventilation en fréquence de chaque item et la valeur de leur barycentre temporel et de leur indice de Van Neuman. Chaque colonne est triable (il suffit de spécifier la colonne à trier et d’activer le tri, ci-dessus tri sur la colonne n°4).

Le tableau précédent met en avant un des résultats présentés dans l’article de référence cité supra, ci-dessous la courbe de ventilation illustrant le comportement des 2 items mis en avant sur ce corpus : salariés vs travailleurs.

Figure 124 : salariés versus travailleurs dans corpus CFDT 1973-2006

21 Sélection. Gestionnaire de sélection

La sélection est un objet textométrique qui permet de décrire de manière homogène la plupart des objets sur lesquels portent les opérations textométriques. Une sélection est un sous-ensemble d’items appartenant à la Trame.

Pour construire des unités complexes et étudier leur répartition dans différentes zones d'un corpus de textes, un logiciel de textométrie doit disposer d’un gestionnaire de sélection permettant de constituer, de modifier, de gérer, les sélections à partir de toutes les vues possibles sur le texte et les sélections déjà construites. Le gestionnaire de sélections prend appui sur toutes les présentations possibles du texte ou des comptages d’unités réalisés à partir de ce dernier pour définir d’autres unités qui seront elles-mêmes soumises à des évaluations textométriques.

(Söze-Duval 2008)

Le Trameur dispose de fonctionnalités permettant de sélectionner des positions de la Trame, de les mémoriser et de constituer des unités réutilisables dans des opérations de ventilation ou de concordance. L’onglet SELECTION enregistre au fur et à mesure toutes les sélections réalisées ; il donne aussi accès à l’outil Gestionnaire de Sélection qui permet de travailler à partir de ces sélections.

Figure 125 : Le Trameur onglet SELECTION

Le Gestionnaire de Sélection permet de « sélectionner» des items de la Trame (via leur position) ou de « sélectionner » des zones de la Trame (via les parties disponibles). Dans les deux cas, on peut ensuite lancer des opérations sur les sélections réalisées.

21.1 Sélection de positions sur la Trame

On distingue deux modes pour sélectionner des positions de la Trame :

o Le mode sélection directe à partir de la Trame : ce mode est disponible sur les objets éditeur (onglet CADRE et VENTILATION), l’objet concordance (onglet CONCORDANCE) et les objets dictionnaire (onglets FORME, LEMME, CATEGORIE).

o Le mode génération d’une sélection : ce mode est accessible dans l’outil Gestionnaire de Sélection. Dans ce mode, il est possible de choisir dans un ensemble d’unités (formes, segments) vérifiant une propriété visée.

21.1.1 Sélection directe à partir de la Trame

21.1.1.1 Sélectionner dans l’éditeur du Cadre

On dispose dans l’onglet CADRE d’un raccourci clavier (shift-clic) permettant de sélectionner les positions visées. Après avoir édité la Trame d’une partie du Cadre (accès à la Trame par le Cadre), les items de la Trame imprimés sont sélectionnables : l’activation du raccourci clavier sur un item déclenche (1) sa sélection (une trace de cette opération est visible dans l’onglet SELECTION) et (2) une coloration jaune autour de l’item visé :

Figure 126 : Le Trameur sélection sur la Trame (onglet CADRE)

Dans la figure précédente, les positions associées aux items surlignés en jaune sont désormais sélectionnées dans le Gestionnaire de Sélection.

21.1.1.2 Sélectionner dans l’éditeur des sections

Le même mécanisme est disponible dans l’éditeur de la Trame par les sections.

21.1.1.3 Sélectionner dans l’éditeur des graphiques

Un mécanisme similaire est disponible sur l’éditeur de l’onglet VENTILATION quand celui-ci est utilisé pour construire la courbe d’accroissement du vocabulaire. Cet éditeur affiche une trace du calcul de la courbe d’accroissement donnant à voir pour chaque position de la Trame les valeurs retenues à cette position. L’activation du raccourci clavier sur une position déclenche sa sélection.

Figure 127 : Le Trameur sélection sur la Trame (onglet VENTILATION)

21.1.1.4 Sélectionner dans les concordances

Le même mécanisme de sélection est disponible dans l’onglet CONCORDANCE sur les pôles des concordances construites. Le même raccourci clavier (shift-clic) permet de sélectionner la position de la forme pôle visée :

Figure 128 : Le Trameur sélection sur une concordance (onglet CONCORDANCE)

21.1.2 Sélectionner dans les dictionnaires

On peut aussi sélectionner les ensembles de positions associées aux entrées des différents dictionnaires (onglets FORME, LEMME, CATEGORIE).

Figure 129 : Le Trameur sélection sur dictionnaires (onglets FORME, LEMME, CATEGORIE)

Dans la première figure qui précède, les items surlignés vont être sélectionnés : l’ensemble de leurs positions respectives sont mémorisées (visibles dans le seconde figure) dans le Gestionnaire de Sélection.

21.2 Traitements d’une sélection dans le Gestionnaire de sélection

L’outil Gestionnaire de Sélection est visible dans l’onglet SELECTION. Le Gestionnaire de Sélection permet :

- De visualiser les items sélectionnés (onglet Liste Sélections)

- De lancer des opérations sur une sélection de positions disponibles dans le Gestionnaire de Sélection

- De rechercher des items en filtrant sur le niveau d’annotation n°1 (forme) (onglet Recherche Forme) : les items résultants peuvent ensuite être ajoutés au Gestionnaire de Sélection

- De rechercher des items en filtrant sur les différents niveaux d’annotation disponibles (onglet Recherche Annotation(s)) : les items résultants peuvent ensuite être ajoutés au Gestionnaire de Sélection

- De rechercher des segments parmi ceux disponibles (quel que soit le niveau d’annotation choisi pour le calcul des segments) (onglet Recherche Segments) : les segments résultants peuvent ensuite être ajoutés au Gestionnaire de Sélection

- De sélectionner des « zones » du Cadre (une ou plusieurs parties) pour y lancer des opérations textométriques (onglet Sélections sur Cadre)

Figure 130 : Le Trameur Gestionnaire de Sélection

Figure 131 : Le Trameur Gestionnaire de Sélection (positions stockées dans le Gestionnaire de Sélection)

On peut ensuite agir sur les positions sélectionnées via les boutons disponibles dans la partie supérieure de la fenêtre du Gestionnaire de Sélection.

On peut supprimer toutes les sélections réalisées ou les sélectionner toutes :

On peut, après sélection des positions mémorisées, lancer des opérations sur ces positions : concordance, ventilation, carte des sections, modification des annotations, insertion d’une nouvelle annotation

21.3 Opérations sur sélections : concordance, ventilation, modification annotation, nouvelle annotation

21.3.1 Concordance

L’exemple ci-dessous montre le texte de travail avant chargement :

La première figure qui suit montre l’ensemble des positions sélectionnées (contour jaune) dans l’éditeur de la Trame :

Figure 132 : Le Trameur sélection directe de position dans l’éditeur

La figure suivante montre l’ensemble des positions mémorisées dans le Gestionnaire de Sélection :

Figure 133 : Le Trameur Gestionnaire de Sélection : les positions enregistrées

La figure suivante montre la sélection réalisée parmi l’ensemble des positions mémorisées (surlignées en noir) dans le Gestionnaire de Sélection :

Figure 134 : Le Trameur Gestionnaire de Sélection : sélection parmi les positions enregistrées

Enfin la figure suivante montre le résultat de la concordance réalisée sur les positions sélectionnées :

Figure 135 : Le Trameur concordance d’une sélection de positions

La concordance réalisée est la concordance des positions sélectionnées :

o position 30 (rivière)

o position 36 (follement)

o position 201 (malade)

21.3.2 Ventilation

En reprenant la même sélection, la figure suivante montre le résultat de la ventilation réalisée sur les positions sélectionnées sur la partition VERS.

Figure 136 : Le Trameur ventilation d’une sélection de positions

La ventilation réalisée est la ventilation des formes associées aux positions sélectionnées :

o position 30 (rivière) : 1 occurrence de cette forme dans la partie VERS1

o position 36 (follement) : 1 occurrence de cette forme dans la partie VERS2

o position 201 (malade) : 2 occurrences de cette forme dans la partie VERS10

21.3.3 Modification des annotations sur les items sélectionnés

Toujours en reprenant la même sélection, la figure suivante montre comment modifier les annotations de tous les items sélectionnés :

Figure 137 : Le Trameur modification des annotations d’une sélection de positions

Une zone de saisie permet de mettre à jour les annotations de tous les items correspondant aux positions sélectionnées. Pour modifier une annotation, il suffit de saisir la nouvelle annotation dans la zone de saisie idoine : les zones de saisie « vides » permettent de conserver les annotations initiales.

Après modification, le Gestionnaire de Sélection est mis à jour :

Figure 138 : Le Trameur modification des annotations d’une sélection de positions

Ainsi que le dictionnaire des formes :

Figure 139 : Le Trameur modification des annotations d’une sélection de positions

21.3.4 Ajout d’une nouvelle annotation sur les items sélectionnés

Toujours en reprenant la même sélection, la figure suivante montre comment modifier les annotations de tous les items sélectionnés :

Figure 140 : Le Trameur insertion d’une nouvelle annotation sur une sélection de positions

Comme dans l’étape précédente, après avoir sélectionné des items dans le Gestionnaire de Sélection, une zone de saisie permet de définir une nouvelle couche d’annotation sur tous les items correspondant aux positions sélectionnées.

Figure 141 : Le Trameur insertion d’une nouvelle annotation sur une sélection de positions

Pour insérer une annotation, il suffit de saisir le nom de la nouvelle annotation et sa valeur dans la zone de saisie idoine. Les autres items de la Trame auront aussi cette nouvelle couche d’annotation mais avec une valeur indéfinie (« unknown »).

Après modification, le Gestionnaire de Sélection est mis à jour :

Figure 142 : Le Trameur insertion d’une nouvelle annotation sur une sélection de positions

Ainsi que le dictionnaire des annotations :

Figure 143 : Le Trameur insertion d’une nouvelle annotation sur une sélection de positions

21.4 Méthodes de génération de sélection via le Gestionnaire

21.4.1 Génération et sélection d’une liste de formes

L’onglet Recherche Forme du Gestionnaire de Sélection permet de lancer la recherche d’une liste de formes possédant une propriété décrite par un motif exprimé sous la forme d’une expression régulière. Dans la figure suivante, on recherche une liste de formes possédant la propriété : \bd (forme commençant par d).

Figure 144 : Le Trameur génération d’une liste de formes à sélectionner

On peut ensuite choisir les positions à sélectionner i.e. choisir celles qui seront ajoutées laux sélections en cours dans l’onglet Liste Sélections.

Figure 145 : Le Trameur sélection d’une liste de formes

21.4.2 Génération et sélection d’une liste de segments

L’onglet Recherche Segments du Gestionnaire de Sélection permet de lancer la recherche d’une liste de segments contenant un motif exprimé sous la forme d’une expression régulière. Dans la figure suivante, on recherche une liste de segments contenant la forme « le ».

Figure 146 : Le Trameur génération d’une liste de segments à sélectionner

Comme précédemment, on peut ensuite choisir les segments à sélectionner et les ajouter aux sélections en cours dans l’onglet Liste Sélections. Cet ajout consiste à mémoriser la position initiale du segment visé : les positions ajoutées sont celles associées à la première forme du segment visé (dans l’exemple ci-dessus : le segment « dans le » est présent à la position 121 et 254 de la Trame (positions respectives des 2 formes « dans » amorçant le segment), ces positions mémorisées seront aussi associées à la longueur du segment ajouté (dans l’exemple ci-dessus, on mémorise donc les positions 121 et 254 et la longueur 2).

21.4.3 Génération et sélection multicritère

Après chargement d’une base textométrique, chaque item de la Trame est associé à un liste d’annotation, cette liste peut être enrichie pour ajout dynamique d’une nouvelle couche d’annotation (cf Ajout/modification d’annonation sur la Trame). L’onglet Recherche d’annotation(s) permet de sélectionner des items de la Trame en paramétrant une recherche multicritère sur les différentes annotations disponibles pour chaque item.

L’interface de cet onglet est reconstruite dynamiquement dès qu’une annotation supplémentaire est intégrée dans la base en cours de traitement.

Figure 147 : Le Trameur génération d’une liste d’items par équation de recherche

Dans l’exemple précédent, la recherche définie :

permet de sélectionner les items de la Trame ayant un niveau d’annotation n°1 (Forme) se terminant par la lettre e et un niveau d’annotation n°3 (Catégorie) commençant par la lettre V, les 2 autres niveaux d’annotation étant indifférents. La liste produite illustre les items de la Trame possédant ces propriétés.

21.4.4 Génération d’une liste d’items spécifiques

L’onglet Spécifs du Gestionnaire de Sélection permet de lancer la recherche d’une liste d’items spécifiques sur une partition donnée. Dans la figure suivante, on recherche des lemmes spécifiques (ici un indice de spécificité supérieur à 10) sur la partition MOIS de la base chargée.

Le résultat donne à voir les items (lemmes) spécifiques sur les parties de la partition visée. Ces éléments peuvent ensuite être utilisés pour des opérations déjà présentées : ventilation, concordance, carte des sections, sélection.

Le bouton de sélection « grisé » permet d’ajouter au Gestionnaire de Sélection uniquement les occurrences de la partie visée.

21.5 Sélection de parties (comme ensembles de sélection de positions sur la Trame)

Le Cadre d’une base textométrique est défini comme un système permettant des accès aux textes, il regroupe des systèmes de parties (partition recouvrante ou non de la surface textuelle). On peut de fait assimiler ces accès aux textes à des sélections de positions sur la Trame.

Si on considère le texte de travail suivant présenté dans 2 formats possibles en entrée du Trameur :

<STRUCTURE="TITRE">Le dormeur du val

<STRUCTURE="TEXTEPOEME">

<LIGNE="VERS1"> C'est un trou de verdure où chante une rivière,

<LIGNE="VERS2"> Accrochant follement aux herbes des haillons

<LIGNE="VERS3"> D'argent ; où le soleil ; de la montagne fière,

<LIGNE="VERS4"> Luit : c'est un petit val qui mousse de rayons.

<?xml version="1.0" encoding="iso-8859-1"?>

<poeme>

<structure niveau="TITRE">Le dormeur du val</structure>

<ligne type="VERS1"> C'est un trou de verdure où chante une rivière,</ligne>

<ligne type="VERS2"> Accrochant follement aux herbes des haillons</ligne>

<ligne type="VERS3"> D'argent ; où le soleil ; de la montagne fière,</ligne>

<ligne type="VERS4"> Luit : c'est un petit val qui mousse de rayons.</ligne>

</structure>

</poeme>

Une segmentation choisie de la partie textuelle de ce texte (pour ces 2 formats) peut conduire à une Trame décrite ainsi :

Forme	Le		dormeur		du		val	\n	…	rayons	.
Positions	1	2	3	4	5	6	7	8	…	pos-1	pos

(pos désignant la dernière position de la Trame)

Pour le texte dans son premier format, les partitions disponibles peuvent être décrites ainsi :

Partition STRUCTURE

La partie STRUCTURE_TITRE couvre la Trame de la position 1 à la position 8

La partie STRUCTURE_TEXTEPOEME couvre la Trame de la position 9 à la position pos

Partition LIGNE

La partie LIGNE_VERS1 couvre la Trame de la position 9 à la position …

Etc.

Pour le texte dans son second format, les partitions disponibles peuvent être décrites ainsi :

Partition poeme

La partie poeme couvre la Trame de la position 1 à la position pos

Partition structure

La partie structure_TITRE couvre la Trame de la position 1 à la position 8

La partie structure_TEXTEPOEME couvre la Trame de la position 9 à la position pos

Partition ligne

La partie ligne_VERS1 couvre la Trame de la position 9 à la position …

Etc.

Chacun des parties décrites est ainsi une sélection de positions sur la Trame couvrant les items compris entre la position initiale et la position finale sur la Trame décrites pour chaque partie.

L’outil Gestionnaire de Sélection dispose d’un onglet permettant de sélectionner des zones sur la Trame en s’appuyant sur les parties c'est-à-dire sur les sélections de positions définies par le Cadre de la base textométrique.

Figure 148 : Le Trameur sélection de parties

Une ou plusieurs parties étant sélectionnées, 4 types d’opérations sont disponibles sur les parties sélectionnées :

- calcul des segments

- calcul de spécicifité

- extraction de patron

- calcul de cooccurrents / polycooccurrents

Les figures suivantes illustrent ces différents modules. Dans tous les cas, après avoir sélectionné une ou plusieurs parties, les calculs invoqués se font sur la sélection visée.

21.5.1 Calcul de segments

Figure 149 : Le Trameur calcul de segment sur une sélection de parties

On commence par sélectionner des parties (ici 4 parties) puis on déclenche le calcul des SR avec le bouton idoine. Les segments résultants ne sont en fait disponibles que dans 2 des parties sélectionnées : une concordance des segments construits donne à voir leurs réalisations sur la Trame :

Figure 150 : Le Trameur calcul de segment sur une sélection de parties

21.5.2 Calcul de spécificité

Après avoir sélectionné des parties, on lance le calcul des spécificités :

Figure 151 : Le Trameur calcul de spécificités sur une sélection de parties

21.5.3 Extraction de patron

Figure 152 : Le Trameur extraction de patron sur une partie sélectionnée

Comme précédemment, une concordance des termes produits illustrent la localisation de ces derniers sur la Trame (dans l’une des parties sélectionnées) :

Figure 153 : Le Trameur extraction de patron sur une partie sélectionnée

21.5.4 Calcul de cooccurrents

Cas n°1 : unité contextuelle déterminée par des délimiteurs

Figure 154 : Le Trameur cooccurrents/polycooccurrents sur une partie sélectionnée (1)

Le calcul des polycooccurrents peut ensuite être lancé.

Cas n°2 : unité contextuelle déterminée par le Cadre

On reprend ici l’exemple de texte de travail vu plus haut :

Figure 155 : Le Trameur cooccurrents/polycooccurrents sur une partie sélectionnée (2)

Dans la figure qui suit, la partition lg a été chargée dans le Gestionnaire de Sélection et certaines instances de strophes sélectionnées ; seules les strophes sélectionnées seront utilisées pour définir les contextes utilisés par le calcul.

Figure 156 : Le Trameur cooccurrents/polycooccurrents sur une partie sélectionnée (3)

Comme précédemment, le calcul des cooccurrents utilisent des paramètres similaires. On peut soit définir des unités contextuelles (au sein des parties sélectionnées) en mettant en avant des caractères délimiteurs (cf cas n°1 supra), soit choisir d’utiliser une zone du Cadre pour déterminer les contextes.

Si cette seconde option est choisie, il est important de s’assurer que la partie utilisée pour définir le contexte est une sous-partie des parties sélectionnées dans le Cadre.

Dans la figure précédente, les parties du Cadre sélectionnées correspondent à la première et à la troisième strophe ; la partie utilisée pour définir les contextes est la balise l, les contextes retenus correspondent donc aux vers constitutifs de ces 2 strophes :

Un soldat jeune, bouche ouverte, tête nue,

Et la nuque baignant dans le frais cresson bleu,

Dort ; il est étendu dans l'herbe, sous la nue,

Pâle dans son lit vert où la lumière pleut.

Les pieds dans les glaïeuls, il dort. Souriant comme

Sourirait un enfant malade, il fait un somme :

Nature, berce-le chaudement : il a froid.

Et au final, les contextes retenus pour le calcul rassemblent les vers contenant le pôle : dans le cas présent, aucun !

21.5.5 Calcul de cooccurrents sur corpus chronologique

On considère dans cette partie que l’on travaille sur le corpus chronologique « Le Père Duchesne » (cf Documentation en ligne Lexico3[20]), noté ici DUCHN.

Figure 157 : Cooccurrents, approche locale / globale / chronologique

Approche « locale » : on travaille sur une sélection de partie pour une partition donnée

Partition sélectionnée : MOIS

Sélection de parties déclinées ci-dessous.

Calcul des cooccurrents de « patriotes »

Cas n°1 : 1 partie sélectionnée (MOIS=6), cooccurrence « locale » sur cette partie

Figure 158 : Le Trameur cooccurrents sur une partie sélectionnée dans un corpus chronlogique (1)

· Option L (local) (activée en bas à gauche)

· On « oublie » le reste du corpus (pas de fond) : les paramètres lexicométriques globaux choisis sont ceux de cette partie.

· T : Nb occurrence de la partie

· t : nb occcurrence des contextes contenant le pôle

· F : fréquence d’une forme sur la partie

· f : fréquence d’une forme dans les contextes contenant le pôle

Figure 159 : Cooccurrents, approche locale

Le réseau produit a l’allure suivante :

Figure 160 : Le Trameur cooccurrents sur une partie sélectionnée dans un corpus chronlogique (2)

Réitérer le même calcul sur d’autres parties permet d’obtenir un « réseau chronologique de cooccurrents » du même pôle.

Cas n°2 : 1 partie sélectionnée (MOIS=6), cooccurrence « globale » sur cette partie

Figure 161 : Le Trameur cooccurrents sur une partie sélectionnée dans un corpus chronlogique (3)

· Option G (global) (activée en bas à gauche)

· On conserve le reste du corpus (prise en compte du fond) : les paramètres lexicométriques globaux choisis sont ceux du corpus complet.

· T : Nb occurrence du corpus complet

· t : nb occcurrence des contextes contenant le pôle

· F : fréquence d’une forme dans le corpus complet

· f : fréquence d’une forme dans les contextes contenant le pôle

Figure 162 : Cooccurrents, approche globale

Le réseau produit a l’allure suivante :

Figure 163 : Le Trameur cooccurrents sur une partie sélectionnée dans un corpus chronlogique (4)

Cas n°3 : 1 partie sélectionnée (MOIS=6), cooccurrence « chronologique » sur cette partie

Figure 164 : Le Trameur cooccurrents sur une partie sélectionnée dans un corpus chronlogique (5)

· Option Ch (chrono) (activée en bas à gauche)

· On conserve les parties du corpus antérieures chronologiquement à celle choisie (prise en compte partielle du fond) : les paramètres lexicométriques globaux choisis sont ceux du corpus constitué par les parties antérieures et la partie sélectionnée.

· T : Nb occurrence dans les parties antérieures et la partie sélectionnée

· t : nb occcurrence des contextes contenant le pôle

· F : fréquence d’une forme dans les parties antérieures et la partie sélectionnée

· f : fréquence d’une forme dans les contextes contenant le pôle

Figure 165 : Cooccurrents, approche chronologique

Le réseau produit a l’allure suivante :

Figure 166 : Le Trameur cooccurrents sur une partie sélectionnée dans un corpus chronlogique (6)

La forme « accusent » serait ici un cooccurrent chronologiquement « très spécifique » de «patriotes » sur cette partie.

21.6 Gestion des sélections : sauvegarde et chargement

Un processus permet de sauvegarder des sélections : la sauvegarde d’une sélection permet de nommer cette sélection (ce nom étant ensuite utilisé pour activer ou inhiber les positions concernées par la sélection), de la décrire (édition d’une zone de texte pour qualifier de manière précise le contenu de la sélection).

Un autre processus permet aussi de charger une sélection préalablement construite. Le sélection chargée est ensuite activable ou inhibable.

Figure 167 : Le Trameur Gestion des sélections : sauvegarde et chargement

21.6.1 Sauvegarde d’une Sélection

Les figures qui suivent présentent le processus de sauvegarde.

Figure 168 : Le Trameur sauvegarde d’une sélection (1)

Figure 169 : Le Trameur sauvegarde d’une sélection (2)

Figure 170 : Le Trameur sauvegarde d’une sélection (3)

Le processus décrit ci-dessus génère un fichier (dans le dossier selections du répertoire courant du Trameur) regroupant les différentes informations identifiant la sélection.

Figure 171 : Le Trameur arborescence XML d’une sélection

On donne ci-dessous le contenu d’un fichier produit (selection_NOMSELECTION_1334663471.xml), les positions sélectionnées ont ici été marquées « lisiblement » (1 rouge):

<?xml version="1.0" encoding="utf-8"?>

<CREATEUR>Le Trameur 8.00 (8.0b010)</CREATEUR>

<FICHIERORIGINE>base-trameur-p96-annot.txt</FICHIERORIGINE>

<SEGMENTEURS><![CDATA[ :,

?).(!]]></SEGMENTEURS>

<DESCRIPTION><![CDATA[la liste sélectionnée contient le résultat de la recherche de tous les adjectifs associés Ã l'annotation "émotion-bébé".

]]></DESCRIPTION>

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

</selection>

</SELECTIONS>

21.6.2 Chargement d’une Sélection

Dans les figures qui suivent, on charge une sélection (correspondant à celle enregistrée ci-dessus dans le fichier « selection_NOMSELECTION_1334663471.xml » ).

Figure 172 : Le Trameur chargement d’une sélection (1)

Figure 173 : Le Trameur chargement d’une sélection (2)

La sélection chargée peut ensuite être activée ou inhibée :

Figure 174 : Le Trameur activation d’une sélection nommée (1)

Figure 175 : Le Trameur activation d’une sélection nommée (2)

L’activation d’un Clic-droit sur la sélection nommée permet d’accéder à sa description (que l’on peut modifier ou enrichir).

Figure 176 : Le Trameur inhibation d’une sélection nommée

22 Importation d’annotation sur une Trame

Il est possible d’importer un ou plusieurs systèmes d’annotations sur une Trame et un Cadre déjà chargés dans le Trameur. Ce processus consiste à annoter chaque position de la Trame en lui associant une nouvelle « étiquette ».

Pour réaliser cette importation, il est nécessaire de disposer d’une description précise de la Trame sur laquelle on doit réaliser la projection d’une nouvelle annotation : en particulier, le nombre d’items et le statut de chacun des items (forme ou délimiteur). Pour disposer d’une telle description de la Trame, il est nécessaire de prendre appui sur le fichier construit à l’issue d’un export de la base en cours de traitement (cf plus loin dans ce manuel, présentation du module d’export). Le fichier d’annotation à importer peut être construit automatiquement dans un éditeur à partir du fichier d’export de la base.

Chaque item (défini par une position unique) est associé à sa forme graphique initiale (l’annotation n°1 dite « Forme »), éventuellement son lemme (l’annotation n°2 dite « Lemme ») et sa catégorie (l’annotation n°3 dite « Catégorie ») si treetagger a été paramétré, et une nouvelle « étiquette » issue du système d’annotations importé.

Annotation importée n°1	A(1)	A(2)	A(3)	A(4)	A(5)	A(6)	A(7)	A(8)
Catégorie		Cat(Le)		Cat(dormeur)		Cat(du)		Cat(val)	…
Lemme		Lemme(Le)		Lemme(dormeur)		Lemme(du)		Lemme(val)	…
Forme		Le		dormeur		du		val	…
Positions	1	2	3	4	5	6	7	8	…

Le format du fichier d’annotations à importer s’appuie sur le fichier de tramage issu de l’export présenté infra.

Dans ce qui suit, nous considérons que nous allons associer une couleur à chaque item de la Trame :

couleur	bleu	vert	rouge	orange	bleu	rouge	jaune	bleu
Forme		Le		dormeur		du		val	…
Positions	1	2	3	4	5	6	7	8	…

Rectangle à coins arrondis: entête Le fichier d’annotation complet à importer a l’allure suivante :

<?xml version="1.0" encoding="iso-8859-1"?>

<importannotationsurtrame>

<title>Modelisation XML de la base Lexico (le metier = le Cadre et la Trame), importable et echangeable avec d'autres plateformes</title>

</titleStmt>

Samedi 26 Mai 2007

12:02:30

Ce document n'est pas encore publie.

</publicationStmt>

Fichier d'import d'annotations sur une Trame deja generee sur le fichier initial

Fichier initialement traite : C:/SFleury/DEVEL/WIP-ANR-textometrrie/mkGraphTrameCadre/textes/dormeurL3.txt

Encodage : iso-8859-1

Delimiteur : \.\ \,\:\;\!\?\/\_\-\"\'\[\]\{\}\§\$\|\&gt;\&lt;\=\+

Rectangle à coins arrondis: Trame des annotations à importer </sourceDesc>

</fileDesc>

</teiheader>

<items>

<item type="delim" pos="3"><a>rouge</a></item>

<item type="forme" pos="4"><a>orange</a></item>

<item type="forme" pos="6"><a>rouge</a></item>

<item type="delim" pos="7"><a>jaune</a></item>

<item type="delim" pos="13"><a>jaune</a></item>

<item type="forme" pos="15"><a>rouge</a></item>

<item type="delim" pos="18"><a>rouge</a></item>

<item type="delim" pos="20"><a>rouge</a></item>

<item type="delim" pos="22"><a>jaune</a></item>

<item type="delim" pos="26"><a>rouge</a></item>

<item type="delim" pos="32"><a>jaune</a></item>

<item type="delim" pos="34"><a>rouge</a></item>

<item type="delim" pos="35"><a>jaune</a></item>

<item type="forme" pos="40"><a>rouge</a></item>

<item type="forme" pos="44"><a>jaune</a></item>

<item type="forme" pos="50"><a>rouge</a></item>

<item type="delim" pos="54"><a>rouge</a></item>

<item type="delim" pos="55"><a>jaune</a></item>

<item type="delim" pos="58"><a>rouge</a></item>

<item type="delim" pos="64"><a>rouge</a></item>

<item type="delim" pos="66"><a>jaune</a></item>

<item type="delim" pos="68"><a>rouge</a></item>

<item type="forme" pos="69"><a>jaune</a></item>

<item type="forme" pos="71"><a>rouge</a></item>

<item type="delim" pos="73"><a>rouge</a></item>

<item type="delim" pos="74"><a>jaune</a></item>

<item type="forme" pos="76"><a>rouge</a></item>

<item type="delim" pos="78"><a>jaune</a></item>

<item type="delim" pos="81"><a>rouge</a></item>

<item type="delim" pos="82"><a>jaune</a></item>

<item type="forme" pos="83"><a>rouge</a></item>

<item type="delim" pos="84"><a>rouge</a></item>

<item type="forme" pos="87"><a>jaune</a></item>

<item type="delim" pos="88"><a>rouge</a></item>

<item type="forme" pos="91"><a>jaune</a></item>

<item type="forme" pos="93"><a>rouge</a></item>

<item type="delim" pos="96"><a>jaune</a></item>

<item type="forme" pos="97"><a>rouge</a></item>

</items>

</importannotationsurtrame>

Pour charger ce fichier d’annotations, il suffit d’activer le bouton (onglet CATEGORIE-TAG)

A la fin de l’importation il convient de nommer le système importé, ce nom sera affiché dans la zone « Annotation sélectionnée » dans les onglets VENTILATION, CONCORDANCE et PATRON quand le numéro de cette annotation sera sélectionné dans la zone de choix d’un numéro d’annotation.

Par convention :

le numéro d’annotation n°1 correspond à « Forme »
le numéro d’annotation n°2 correspond à « Lemme »
le numéro d’annotation n°3 correspond à « Catégorie »

Toute annotation importée aura un numéro supérieur ou égal à 4.

(enregistrement du nom de l’annotation importée)

Figure 177 : Le Trameur Importation d’annotation, nommage et sélection du niveau d’annotation

Une fois chargé, ce nouveau système d’annotations est disponible pour les différentes opérations présentées précédemment : concordance, ventilation, recherche de patron, édition/modification des items.

Figure 178 : Le Trameur correction d’item (annotation importée)

Figure 179 : Le Trameur concordance d’item (annotation importée)

Figure 180 : Le Trameur ventilation d’item (annotation importée)

23 Ajout/modification d’annotation sur une Trame

Pour modifier une annotation, il est possible d’agir sur chaque item de la Trame via les différents éditeurs : Cadre, Section, Concordance (cf parties précédentes). Ce type de modification ne modifie qu’un seul item. Dans un processus d’annotation plus large, il faut pouvoir réaliser des modifications à plus grande échelle.

Ajouter une annotation est une opération réalisable en important une nouvelle annotation décrite dans un fichier préconstruit à partir de la Trame (cf partie précédente).

Ces deux opérations peuvent être aussi être réalisées dynamiquement sur une base chargée dans le Trameur (en sélectionnant des items dans les dictionnaires disponibles) ou en modifiant la base préalablement exportée.

23.1 Ajout/modification d’annotation par sélection d’items dans un dictionnaire

La modification et l’insertion d’annotations ont déjà été présentées via le Gestionnaire de Sélection. Ces 2 opérations sont aussi disponibles sur les contenus des dictionnaires.

Dans le Trameur, chaque position de la Trame peut être associée à plusieurs systèmes d’annotation. On peut importer un système d’annotation sur l’intégralité des positions de la Trame (cf partie précédente). On peut aussi insérer ou modifier des annotations en sélectionnant des items de la Trame dans le dictionnaire des formes par exemple (ou via les autres dictionnaires). Dans l’exemple qui suit, on travaille sur le texte « Le Père Duchesne » ; le chargement du fichier de travail a été paramétré pour construire un étiquetage à l’issue de la segmentation. On dispose donc en fin de chargement du fichier de 3 couches d’annotation sur chaque item de la Trame : le numéro d’annotation n°1 correspondant à « Forme », le numéro d’annotation n°2 correspondant à « Lemme », le numéro d’annotation n°3 correspondant à « Catégorie ». Toute annotation importée/insérée aura un numéro supérieur ou égal à 4. Dans chaque onglet donnant à voir un dictionnaire, on peut agir sur les items disponibles :

l’édition de la forme visée pour éventuellement la corriger (si la forme est mise à jour, tous les items de la Trame ayant cette forme seront modifiés).

Figure 181 : Le Trameur édition de la Trame par les formes

23.1.1 Ajout d’annotation

Les figures suivantes illustrent le mécanisme d’ajout d’une annotation sur tous les items de la Trame en sélectionnant au préalable une forme donnée dans le dictionnaire des formes (ou via les autres dictionnaires).

Phase 1 : ajout d’une annotation

Phase 2 : visualisation sur la Trame

de la présence de la nouvelle annotation

Figure 182 : Le Trameur ajout d’annotation sur la Trame via une forme sélectionnée

23.1.2 Modification d’annotation

Les figures suivantes illustrent le mécanisme de modification d’une annotation sur tous les items de la Trame en sélectionnant au préalable une forme donnée dans le dictionnaire des formes (ou via les autres dictionnaires).

Phase 1 : modification d’une annotation

Phase 2 : visualisation sur la Trame du résultat

de la mise à jour de l’ annotation

tambourà TAMBOUR

Figure 183 : Le Trameur modification d’annotation sur la Trame via une forme sélectionnée

Au cours de la modification des annotations sur un item sélectionné, si les valeurs des champs Lemme, Catégorie et annotations complémentaires restent vides, les valeurs initiales seront respectivement conservées pour chacune des annotations concernées.

IMPORTANT : toute insertion ou modification réalisée dynamiquement via les fonctionnalités précédentes ne modifie pas le fichier chargé ou la base importée initialement.

Il convient d’exporter la base en cours de traitement à l’issue d’une session de travail pour conserver les traces des modifications réalisées (insertion ou modification d’annotation) : la base exportée est ensuite ré-importable ultérieurement et le travail d’annotation peut être poursuivi et enrichi.

23.2 Ajout/fusion de couche d’annotation

Une base textométrique étant chargée, il est possible d’y insérer une nouvelle couche d’annotation, de dupliquer une couche d’annotation existante ou de fusionner deux ou plusieurs couches d’annotations existantes.

Figure 184 : Le Trameur ajout / fusion d’annotation

Dans la figure précédente, le bouton de gauche permet de générer automatiquement une nouvelle couche d’annotation : à l’issue de cette insertion, tous les items de la Trame auront une annotation supplémentaire « vide ».

Le bouton de droite permet soit de dupliquer la couche d’annotation spécifiée dans la zone de saisie par son numéro (1 : forme ; 2 : lemme ; 3 : catégorie ; etc.) soit de fusionner les couches d’annotions existantes spécifiées dans la même zone de saisie sous la forme suivante : i&j où i et j sont les numéros des annotations visées (pour fusionner les annotations 1, 2 et 3, on écrira : 1&2&3).

23.3 Ajout/modification d’annotation dans une base exportée

La modification ou l’insertion d’annotation peut aussi être mise en œuvre sur une base textométrique préalablement exportée (cf plus loin dans ce manuel, présentation du module d’export).

Une fois une base exportée, il est possible de l’éditer (via un éditeur de texte type notepad++ par exemple). Une base textométrique est un fichier XML décrivant la Trame et le Cadre du fichier initialement chargé. L’ajout ou la modification d’une annotation ne modifie que la représentation de la Trame.

La figure suivante donne à voir un extrait d’une Trame : on y voit la représentation d’un extrait de la segmentation (les items résultants) et sur chaque item, les valeurs de tous les niveaux d’annotation définis sur la Trame. Dans cet exemple, elle comporte six niveaux d’annotation. Chaque item a un type (forme ou délimiteur), une position sur la Trame et une description de ses différentes annotations via un système de balises :

· <f> sa forme graphique </f>

· <c> sa catégorie morpho-syntaxique </c>

· <l> son lemme </l>

· <a> annotation n°4 </a>

· <a> annotation n°5 </a>

· <a> l’indication annotation n°6 </a>

Les 3 premières balises sont toujours utilisées pour décrire la forme graphique, la catégorie et le lemme de l’item visée (les balises c et l ne sont visibles que si une annotation morphosyntaxique a été intégrée (via tree-tagger ou tout autre programme)).

Les annotations supplémentaires sont toutes associées à une balise a. L’ordre des balises a dans chaque item doit maintenir l’ordonnancement voulu des annotations : le premier couple de balises <a>…</a> correspond à l’annotation n°4, le second couple de balises <a>…</a> correspond à l’annotation n°5 etc. Le type des annotations (ici de 4 à 6) n’est pas explicitement nommé dans la base, c’est à l’utilisateur de les connaître pour les identifier et y réaliser les modifications souhaitées. Dans l’exemple donné, toutes les valeurs des annotations 4, 5 et 6 ont une valeur identique : un tiret.

Pour modifier une valeur d’annotation donnée, il suffit de modifier la valeur située dans la balise correspondante.

Pour ajouter une nouvelle couche d’annotation, il convient d’ajouter sur tous les items un couple de balise <a>…</a> et d’y insérer la valeur d’annotation idoine.

Ces opérations peuvent être réalisées par des méthodes classiques disponibles dans un « bon éditeur » : « rechercher/remplacer » par exemple.

Pour ajouter une annotation :

rechercher : </a></item>

remplacer par : </a><a></a></item>

Reste ensuite à modifier le contenu de la nouvelle annotation <a></a> sur chaque item.

23.4 Annotation de sections

A l’issue d’une ventilation sur la carte des sections il est possible de d’annoter les sections concernées par cette recherche.

Dans l’exemple ci-dessous, un motif a été projeté sur la carte :

Figure 185 : Le Trameur annotation de sections

L’activation du bouton d’ « Annotation des sections » va réaliser les opérations suivantes :

Ajout d’une couche d’annotation n°X sur les items de la Trame avec pour valeur -1
Le premier item d’une section contenant le motif visé aura comme valeur 1 pour l’annotation n°X
Le premier item d’une section ne contenant pas le motif visé aura comme valeur 0 pour l’annotation n°X

Figure 186 : Le Trameur annotation de sections (0 vs 1)

Dans le cas de bases alignées, si une des sections ne contient pas le motif visé, toutes les sections alignées sont marquées avec la valeur 0 sur le premier item de ces sections :

Figure 187 : Le Trameur annotation de sections sur bases alignées

Ce marquage des sections permet par exemple de mettre au jour les sections contenant ou ne contenant pas le motif visé.

Dans l’exemple ci-dessous, on s’intéresse aux sections alignées ne contenant pas le motif visé et on les projette dans la carte des sections :

Figure 188 : Le Trameur annotation de sections sur bases alignées : recherche de l’absence

On peut ainsi isoler, à l’issue d’une recherche de motif dans la carte des sections (ici alignées), des sections particulières ; dans cet exemple, les sections alignées mises au jour se caractérisent par l’absence du motif initialement cherché dans l’une des sections alignées :

Figure 189 : Le Trameur annotation de sections sur bases alignées : mise au jour de l’absence

24 Des nuages de d’annotations sur la Trame

Ce module permet de générer un fichier (au format XML) donnant à voir une liste d’items de la Trame (via un niveau d’annotation choisi), chacun de ces items étant associé à l’ensemble des sections (zones de texte paramétrable) associées à cette annotation.

Figure 190 : Le Trameur un nuage d’annotations sur la Trame

Figure 191 : Le Trameur un nuage d’annotations sur la Trame avec contextes

Le paramétrage du calcul de ce nuage se fait dans l’onglet DIC.

Figure 192 : Le Trameur paramétrage du nuage d’annotations

Des exemples de nuages d’annotations sur la Trame sont visibles sur la page web du Trameur.

25 Relations de dépendance entre les items de Trame (via leurs annotations)

Cette partie introduit le traitement des relations de dépendances disponibles entre les items de la Trame. Pour illustrer ces fonctionnalités, nous utilisons les bases textométriques suivantes (disponibles sur la page du logiciel) :

1. Base "Corpus de contes français" (Fairy Tales Corpus, FTC) construite à partir des ressources développées par Ismaïl El Maarouf. Chaque item de la Trame est associé à 7 niveaux d'annotation.

SOURCES : I. El Maarouf et J. Villaneau (2012). A French Fairy Tale Corpus syntactically and semantically annotated. In Proceedings of LREC 2012. Istanbul (Tk).

Pour les formes : copyright Momes.net, http://momes.net.

Lemme et POS via treetagger : fichier paramètre langue (français, utf-8) développé par Christophe Benzitoun (ATILF)
Pour les annotations : http://elmaarouf.legtux.org/Accueil.html

Descriptif et sources des annotations :

balise <f> (forme) : copyright Momes.net, http://elmaarouf.legtux.org/data/FTC_FORM.txt

balise <l> (lemme) : fichier paramètre langue (français, utf-8) développé par Christophe Benzitoun (ATILF)

balise <c> (POS) : fichier paramètre langue (français, utf-8) développé par Christophe Benzitoun (ATILF)

Annotations complémentaires (http://elmaarouf.legtux.org/Accueil.html) :

Identifiants de mots : http://elmaarouf.legtux.org/data/FTC_ID.txt (première balise <a>)

· Annotation référentielle : http://elmaarouf.legtux.org/data/FTC_REF.txt (seconde balise <a>)

· Annotation en rôles sémantiques pour 26 verbes : http://elmaarouf.legtux.org/data/FTC_SEMROLE.txt (troisième balise <a>)

· Annotation syntaxique en dépendance pour 137 verbes : http://elmaarouf.legtux.org/data/FTC_SYNROLE.txt (dernière balise <a>)

L'ensemble des annotations du corpus initial (+ lemme et POS) regroupées ici au format d'une base textométrique pour le Trameur.

2. Base "Rhapsodie2Trameur" construite à partir des ressources développées dans le cadre du projet Rhapsodie. Chaque item de la Trame est associé à 13 niveaux d'annotation.

SOURCES : projet Rhapsodie

Fichiers de codage microsyntaxique version béta 10/13 (zip)

Descriptif et sources des annotations :
Présentation du processus de transcodage des annotations Rhapsodie pour construire une base Textométrique (pdf)

3. Base "Rhapsodie2Trameur" (v4) construite à partir des ressources développées dans le cadre du projet Rhapsodie. Chaque item de la Trame est associé à 38 niveaux d'annotation (prosodie, micro et macro-syntaxe).

25.1 Extrait de la Trame : « un jour, un petit ange de sapin de … »

Dans les exemples présentés infra, nous allons travailler sur un extrait de la base des contes dont l’image suivante donne à voir le début de la Trame telle qu’elle est représentée dans la base textométrique disponible :

Cet extrait met en avant des relations de dépendances sur plusieurs items de la Trame :

L’item en position 4 (dont la forme est « jour ») porte dans son annotation n°7 la valeur :

XXX(1), YYY(4)

Cette information traduit la présence de 2 relations de dépendance pour cet item :

une nommée XXX, l’autre YYY ; la première associe l’item courant avec un item dont l’identifiant est 1,
la seconde associe l’item courant avec un item dont l’identifiant est 4.

Dans cette base, l’identification des éléments de la Trame ne coïncide pas avec leur position sur la Trame, une annotation particulière (la première balise <a> correspondant à l’annotation n°4) porte cette information.

On a donc :

« jour » (position 4) à « Un » (position 2, identifiant 1) par la relation XXX

« jour » (position 4) à « un » (position 7, identifiant 4) par la relation YYY

25.2 Recherche de relations

L’onglet Graphe permet de lancer une requête de recherche de relations entre items de la Trame.

Figure 193 : Le Trameur recherche de relations de dépendance via l’onglet GRAPHE

25.2.1 Sélection des relations à afficher

Figure 194 : Le Trameur paramétrage de la recherche de dépendance sur la Trame

Pour afficher les relations disponibles dans la base, un menu permet de définir ces relations.

Dans l’exemple ci-dessus, on définit le modèle « XXX|YYY » permettant de représenter soit la relation XXX soit la relation YYY en spécifiant le numéro de l’annotation portant les relations de dépendance à scruter.

On précise aussi ici où repérer les identifications des items concernés (annotation n°4).

Dans la base traitée ici, chaque item de la Trame est associé à un niveau d’annotation (numéro 4) portant une valeur permettant d’identifier ces items. Si ce niveau d’annotation n’est pas disponible, il est possible d’utiliser une « niveau d’annotation virtuel » pour identifier les items : celui fourni par la position des items sur la Trame. Pour activer cette identification des items par leur position, il suffit de cocher la case disponible « (Position) ».

25.2.2 Graphe des relations

L’activation de la recherche produit le graphe des relations disponibles sur le modèle visé :

Figure 195 : Le Trameur affichage du graphe des dépendances

25.3 Sélection des relations avec filtrage sur le nœud source de la relation

On peut affiner le modèle de recherche de relations en filtrant sur les annotations associées aux nœuds des relations visées. Dans l’exemple suivant, on s’intéresse aux objets (relation OBJ) des items contenant la chaîne de caractère « connu » au niveau de l’annotation n°1 (forme) :

Figure 196 : Le Trameur paramétrage de la recherche de dépendance avec filtrage

Autre illustration sur la base « Corpus de conte » sur lequel on a cherché la relation « SUJ|OBJ », le graphique donne à voir un extrait du graphe produit :

Figure 197 : Le Trameur affichage du graphe des dépendances (1)

De même, sur la base Rhapsodie2Trameur, la figure suivante illustre la recherche des « objets » du lemme « affirmer » :

Figure 198 : Le Trameur affichage du graphe des dépendances (2)

Dans la figure précédente, on cherche des relations de dépendance de type OBJ en contraignant un des composants de la relation : il doit porter le lemme "affirmer" (i.e. on cherche les objets d'affirmer). Dans la figure suivante, la relation cherchée est double (SUB ou OBJ), la cible de la relation impose une valeur pour le lemme (« penser ») et pour l’annotation n°9 (ROOT)

Figure 199 : Le Trameur affichage du graphe des dépendances (3)

Dans les 2 graphes précédents, l’affichage des nœuds est celui produit par défaut : affichage de la position de l’item sur la Trame et de sa forme graphique. On peut visualiser l’ensemble des annotations d’un nœud donné via le mode Aperçu disponible dans tous les éditeurs (en passant la souris au-dessus de l’objet visé) : ci-dessus, l’item en position 9899 (lemme : penser) est mis au jour. Dans les précédentes figures, l’affichage d’un nœud est directement rendu « complet » via l’option du même nom disponible et activable avant de charger un graphe.

25.4 Sélection des relations avec filtrage sur la position du dépendant

Une option supplémentaire permet de filtrer la recherche de relation en contraignant la position du dépendant : postposition ou antéposition.

Par défaut, la recherche met au jour les dépendants antéposés et postposés, si on décoche une des options, la recherche ne s’appliquera que sur les dépendants correspondant à l’option cochée.

25.5 Actions sur les nœuds du graphe : retour en contexte

Dans l’exemple qui suit, on s’intéresse aux relations SUJ ou OBJ concernant les items ayant pour forme « anges » dans la base des contes :

Figure 200 : Le Trameur paramétrage de la recherche de dépendance avec filtrage

Le graphe produit a l’allure suivante :

Figure 201 : Le Trameur affichage du graphe des dépendances

La combinaison de touche « clic-droit » sur un nœud du graphe permet d’afficher une concordance de l’item visé :

Figure 202 : Le Trameur affichage de la concordance sur un des nœuds du graphe des dépendances

L’ensemble des nœuds peut aussi être projeté globalement sur le concordancier. Dans la figure suivante, on reprend le graphe produit sur la base Rhapsodie2Trameur montrant le résultat de la recherche des « objets » du lemme « affirmer » :

Figure 203 : Le Trameur affichage de la concordance sur tous les nœuds du graphe des dépendances

La concordance produite après projection de tous les noeuds a l’allure suivante :

Figure 204 : Le Trameur Concordance sur tous les nœuds du graphe des dépendances (1)

Les sources de la relation sont coloriées en rouge (pôle de la concordance), les cibles en vert (i.e ici le verbe est en vert, son objet en rouge). On peut aussi varier l’affichage des annotations dans la concordance en matérialisant par exemple la catégorie de chaque item :

Figure 205 : Le Trameur Concordance sur tous les nœuds du graphe des dépendances (2)

Toutes les zones d’édition du Trameur permettent de mettre au jour les annotations de la Trame (cf « Marquage des annotations de la Trame »). Si on considère la figure suivante, elle présente un extrait de la concordance construite à partir du graphe ayant permis d’extraire la relation OBJ :

Figure 206 : Le Trameur Coloration d’annotation dans le concordancier (1)

Le marquage de certains items est possible en sélectionnant les annotations à mettre au jour :

Figure 207 : Le Trameur Coloration d’annotation dans le concordancier (2)

25.6 Rechercher dans un graphe de dépendance

On présente tout d’abord le résultat produit par la requête suivante « recherche de la relation OBL » :

Le résultat produit a l’allure suivante :

Figure 208 : Le Trameur Graphe de la relation OBL

On peut mettre au jour dans ce graphe certains nœuds en filtrant leurs annotations. Le processus de filtrage des nœuds du graphe permet de sélectionner certains nœuds sur la base des différentes annotations disponibles. Dans l’exemple suivant, on veut mettre au jour les nœuds de catégorie B_V :

Figure 209 : Le Trameur Recherche dans un graphe de relation (1)

Le résultat produit a l’allure suivante :

Figure 210 : Le Trameur Recherche dans un graphe de relation (2)

Dans la figure qui suit, 3 filtrages successifs sont réalisés pour marquer successivement les nœuds ayant pour catégorie B_V, puis B_N et enfin B_Pre ; chaque requête est précédée par la modification de la couleur à utiliser pour le marquage des nœuds visés (verbe en bleu, nom en vert et préposition en orange) :

Figure 211 : Le Trameur Recherche dans un graphe de relation (3)

25.7 Affichage de relation en contexte

Le Trameur permet des accès à la Trame via différents éditeurs (éditeur du Cadre, de la Carte des sections, du concordancier). Ces éditeurs permettent de donner à voir les relations définies sur les items présents dans l’éditeur.

Dans l’exemple qui suit, la figure présente l’éditeur de la Carte des sections contenant l’item (en position 15) dont l’annotation n°1 (forme) est « sapin » (le mode aperçu signale des relations définies sur cet item via le niveau d’annotation n°7)

Figure 212 : Le Trameur accès aux dépendances via la Trame

La combinaison de touches « shift-clic droit » active une fenêtre permettant de sélectionner les relations à rechercher sur cet item :

Figure 213 : Le Trameur paramétrage de l’affichage des dépendances sur un item de la Trame (1)

Comme précédemment, le paramétrage de cette recherche permet de spécifier le nom de la relation visée et le numéro d’annotation dans lequel elle doit être cherchée ; dans la figure qui suit, on cherche les relations XXX ou YYY intégrées dans l’annotation n°7 :

Figure 214 : Le Trameur paramétrage de l’affichage des dépendances sur un item de la Trame (2)

Le résultat de la recherche produit deux types d’affichage :

La matérialisation dans l’éditeur des items concernés par relations visées

Figure 215 : Le Trameur affichage de la dépendance sur la Trame (1)

L’affichage du graphe des relations

Figure 216 : Le Trameur affichage de la dépendance via un graphe (2)

25.8 Recherche de relation en contexte

Les éditeurs de la Trame permettent aussi de rechercher d’éventuelles relations sur les items édités.

Figure 217 : Le Trameur recherche de dépendance en contexte sur un item de la Trame

Dans l’exemple qui suit, l’éditeur de la Carte des sections affiche une section contenant l’item n°44 dans l’annotation n°1 (forme) est « connu ». La combinaison de touches « control-clic droit » active une fenêtre permettant de paramétrer la recherche de relations concernant cet item. Le paramétrage de cette recherche de relations consiste à spécifier le numéro de l’annotation dans laquelle la recherche de relations doit s’effectuer (ici le numéro 7).

Figure 218 : Le Trameur paramétrage de la recherche de dépendance sur un item de la Trame (1)

Le résultat de la recherche produit là aussi 2 types de résultats.

Affichage du graphe des relations concernant le nœud initialement visé

Figure 219 : Le Trameur affichage des dépendances via un graphe (1)

La matérialisation dans l’éditeur des items concernés

Figure 220 : Le Trameur affichage des dépendances en contexte sur la Trame

De même la recherche de dépendance peut aussi être réalisée sur le concordancier. Si on considère la concordance suivante (en haut de la figure) :

Figure 221 : Le Trameur paramétrage de la recherche de dépendance sur un item de la Trame (2)

La combinaison de touches « control-clic droit » sur un item de la concordance (ici l’item visé est la première occurrence de la forme graphique « affirme ») permet de rechercher toutes les relations de dépendance pointant sur cet item. On commence par indiquer où chercher les relations de dépendance (numéro d’annotation portant ce type d’information : ici le n°9) et comment sont indexer les items sur la trame (ici par leur position). La recherche conduit à la production d’un graphe mettant au jour toutes les relations sur l’item visé :

Figure 222 : Le Trameur affichage des dépendances via un graphe (2)

Le graphe donne à voir les 3 relations pointant sur l’item.

25.9 Graphe de relations en contexte

Une fonctionnalité permet de donner à voir (sous la forme d’un graphe) l’ensemble des relations disponibles sur une zone de la Trame éditée dans la Carte des sections. La base étant chargée, la figure suivante donne à voir la Carte des sections et l’édition d’une section :

Figure 223 : Le Trameur affichage d’un graphe de dépendances en contexte (1)

Dès qu’une section est éditée, une icône est activée et permet de déclencher l’affichage du graphe des relations de dépendance entre les items de la zone textuelle éditée.

Figure 224 : Le Trameur affichage d’un graphe de dépendances en contexte (2)

25.10 Visualisation de toutes les relations dans un contexte donné

Une fonctionnalité complémentaire permet de donner à voir (sous la forme d’une matrice) l’ensemble des relations disponibles sur une zone de la Trame éditée dans la Carte des sections. La base étant chargée, la figure suivante donne à voir la Carte des sections (le caractère point est utilisé comme délimiteur de sections) et l’édition de la première section :

Figure 225 : Le Trameur affichage global des dépendances en contexte (1)

Dès qu’une section est éditée, une icône est activée et permet de déclencher l’affichage des relations de dépendance entre les items de la zone textuelle éditée.

Figure 226 : Le Trameur affichage global des dépendances en contexte (2)

Un menu permet de sélectionner le numéro d’annotation portant les relations visées (ici l’annotation n°7) et la manière dans les items sont identifiables dans ces relations (ici via l’annotation n°4)

Figure 227 : Le Trameur affichage global des dépendances en contexte (3)

L’activation de la recherche produit une matrice donnant à voir les relations disponibles sur la section visée :

Figure 228 : Le Trameur affichage global des dépendances en contexte (4)

25.11 Recherche de collocation : spécificités sur relation

Une version particulière du module de calcul des cooccurrences permet de prendre en compte les relations entre les items de la Trame :

Etant donné une forme pôle, la recherche de ses cooccurrents peut être contrainte par la prise en compte d’une relation entre ce pôle est ses candidats cooccurrents. Pour un item X donné (le pôle), on s’intéresse aux items Y cooccurrents de X et en relation REL avec X (les collocatifs de X) :

X -> REL -> Y

La figure suivante présente les cooccurrents du lemme penser en contraignant ses cooccurrents à être en position d’objet :

Figure 229 : Le Trameur Recherche de collocation (1)

La relation entre le pôle et ses cooccurrents peut être « non déterminée » par avance, dans la figure suivante, la relation est exprimée sous la forme : .* (regexp) ; elle vise donc toutes les relations du type : penser-OBJ-y, penser-SUB-y etc.

Figure 230 : Le Trameur Recherche de collocation (2)

Une fois le graphe construit, un clic-droit sur un des noeuds montrent les contextes dans lesquels la relation se réalise (i.e les contextes utilisés par le calcul).

Dans cet exemple, 3 contextes dans lesquels vous est sujet de penser (cf arc penser -> vous) ont été mis au jour, un clic-droit sur le nœud vous les montrent dans le concordancier (les 2 items de la relation y sont colorés automatiquement : vous en rouge (pôle de la concordance) et penser en vert).

Figure 231 : Le Trameur Recherche de collocation (3)

25.12 Recherche source-cible d’une relation

L’onglet Relation contient d’autres fonctionnalités permettant de traiter les relations de dépendance. Une première permet de lister les termes source et/ou cible d’une relation visée. On peut soit chercher la liste des termes source de cette relation, soit la liste des termes cible.

Dans la figure suivante, on s’intéresse à la relation OBJ (les annotations de dépendance étant portées ici par l’annotation n°10 de la base traitée et les items mis en relation sont indexés par leur position sur la Trame), la requête « chercher » produit la liste des items de la Trame portant cette annotation (cf colonne a-00010) :

Figure 232 : Le Trameur liste de relations

Dans la figure suivante, on s’intéresse à la même relation, la requête « chercher cible » produit cette fois-ci les cibles des relations portées par les items précédents :

Figure 233 : Le Trameur liste de relations (cible)

On peut enfin construire la liste des termes de POS contraints par un relation de dépendance. Dans la figure qui suit, la relation visée est la relation OBJ ; on paramètre ensuite les catégories source et cible visées (annotation n°3) visées (ici .* permet de les récupérer toutes).

Figure 234 : Le Trameur liste de POS en relation

Le résultat produit donne à voir les fréquences des patrons de dépendance (via leur POS) : par exemple ici, la relation de dépendance OBJ met 40 fois en relation un item de type Adv et un item de type V avec : Adv–OBJ->V ; dans la base traitée ici, la relation OBJ met majoritairement en relation les items de type V et les items de type N : N–OBJ->V (fq : 1081).

Les trois dernières colonnes donnent des informations complémentaires sur chaque type de relation :

LGmoy (longueur moyenne) : le nombre de mots entre l’item source (dépendant) et l’item cible (gouverneur).
POST : le nombre de relation avec un dépendant postposé.
ANTE : le nombre de relation avec un dépendant antéposé.

Enfin, dans la figure suivante, la requête exprimée permet d’afficher, pour un item donné (ici le lemme « penser »), les dépendants de cet item dans la relation de dépendance visée (ici SUB ou OBJ) :

Figure 235 : Le Trameur les dépendants d’un item (forme, lemme ou catégorie)

Pour produire la liste des dépendants de plusieurs items, il est possible de les décrire via une expression régulière (ici tous les mots commençant par « pens ») :

Figure 236 : Le Trameur les dépendants d’une liste d’items (forme, lemme ou catégorie)

Les items de la liste peuvent être projetés sur le concordancier via le raccourci clavier « shift-clic » sur le ou les items visé(s) :

Figure 237 : Le Trameur retour en contexte (les dépendants d’un item)

26 Le Cadre : visualisation, réorganisation

Le Cadre est présenté supra comme une interface permettant de définir des accès à la Trame. Nous présentons ici un chantier qui étend les outils et fonctionnalités associés à la Trame. Il s’agit essentiellement de permettre à l’utilisateur de réorganiser le Cadre afin de conduire des opérations supplémentaires à partir de la réorganisation réalisée en agissant dynamiquement sur la structuration du Cadre. Nous illustrerons ces modifications sur 2 fonctionnalités déjà disponibles :

- Réorganisation dynamique du Cadre pour construire un nouveau corpus de travail

- Réorganisation dynamique (et provisoire) du Cadre pour un calcul lexicométrique donné (accroissement du vocabulaire)

L’onglet CADRE est composé de 2 volets (2 sous-onglets) : l’un dédié à sa visualisation, l’autre à sa réorganisation.

Figure 238 : Le Trameur le Cadre (visualisation, réorganisation)

Ce second volet permet de gérer la réorganisation dynamique du Cadre. Une fois la base textométrique chargée, un bouton permet de charger une partition donnée en vue de sa réorganisation dynamique :

Figure 239 : Le Trameur Chargement d’une partition à réorganiser

L’utilisateur peut donc définir dynamiquement une nouvelle organisation d’une partition initialement définie :

- En modifiant l’ordre des parties

- En ne sélectionnant qu’une sélection restreinte de parties (ici la réorganisation peut être vue comme une opération de sélection)

Figure 240 : Le Trameur Réorganisation d’une partition

Une fois la réorganisation réalisée, il est possible d’activer différentes opérations sur le CADRE réorganisé dynamiquement. Il est important de souligner qu’à ce stage aucune modification n’est faite sur la base initiale : la Trame et le Cadre de départ restent dans leur état initial. La réorganisation visée est simplement décrite par la position des parties pour la réorganisation escomptée.

A ce stade du développement, les actions disponibles sont :

1. Export de la base textométrique en tenant compte de la réorganisation visée : cet export permet de regénérer une Trame et un Cadre sur la base de l’ordre décrit pour la partition choisie.

Application : réorganisation d’un corpus pour rétablir par exemple une chronologie textuelle non réalisée dans la phase initiale. Cette réorganisation est vue ici comme un outil de préparation des données (ou de reformatage) avant analyse. Une fois la base exportée, il suffit de recharger la nouvelle base et de poursuivre son exploration.

2. Accroissement du vocabulaire sur la base en tenant compte de la réorganisation réalisée.

Ici, la réorganisation reste virtuelle, elle ne concerne que le calcul opéré. La base initiale reste inchangée. On peut par exemple comparer 2 courbes d’accroissement du vocabulaire sur une même Trame d’items organisés différemment sur la base de 2 partitions équivalentes mais structurées séquentiellement de manière différente. Le résultat produit donne d’ailleurs à voir le calcul de l’accroissement du vocabulaire sur la base initiale et sur la base réorganisée.

Figure 241 : Le Trameur Courbe d’accroissement sur une partition initiale et la même partition tronquée et réorganisée

Dans les 2 cas, l’opération réalisée peut se réaliser sur l’ensemble des parties réorganisées ou sur un sous-ensemble ne couvrant pas totalement l’ensemble de la Trame initiale, dans ce dernier cas, on extrait un sous corpus ou on calcule l’accroissement du vocabulaire sur une partir de la Trame initiale réorganisée virtuellement.

27 Exporter une base textométrique

Le Trameur permet d’importer une base textométrique i.e. une ressource textuelle décrivant une Trame et un Cadre textométriques. Cette ressource peut être construite par le Trameur pour construire, à un moment donné, un état textométrique donnant à voir simultanément la Trame et le Cadre du texte traité. Elle peut ensuite être réimportée par le processus mis en œuvre pour charger ce type de ressource.

Le processus d’exportation d’une base textométrique est disponible dans l’onglet CADRE. La ressource construite après activation de cette exportation est disponible dans le dossier export du répertoire contenant le fichier chargé.

On donne à voir ci-dessous le texte de travail « Le dormeur du Val » (chargé avec l’option étiquetage) et le fichier d’exportation obtenu :

Texte initial

<STRUCTURE="TITRE"> Le dormeur du val

<STRUCTURE="TEXTEPOEME">

<LIGNE="VERS1"> C' est un trou de verdure où chante une rivière,

<LIGNE="VERS2"> Accrochant follement aux herbes des haillons

<LIGNE="VERS3"> D' argent ; où le soleil ; de la montagne fière,

<LIGNE="VERS4"> Luit : c' est un petit val qui mousse de rayons.

<LIGNE="VERS5">Un soldat jeune, bouche ouverte, tête nue,

<LIGNE="VERS6">Et la nuque baignant dans le frais cresson bleu,

<LIGNE="VERS7">Dort ; il est étendu dans l'herbe, sous la nue,

<LIGNE="VERS8">Pâle dans son lit vert où la lumière pleut.

<LIGNE="VERS9">Les pieds dans les glaïeuls, il dort. Souriant comme

<LIGNE="VERS10">Sourirait un enfant malade, il fait un somme :

<LIGNE="VERS11">Nature, berce-le chaudement : il a froid.

<LIGNE="VERS12">Les parfums ne font pas frissonner sa narine ;

<LIGNE="VERS13">Il dort dans le soleil, la main sur sa poitrine,

<LIGNE="VERS14">Tranquille. Il a deux trous rouges au côté droit.

<STRUCTURE="AUTEUR">Arthur Rimbaud

Fichier exporté (et ré-importable comme base textométrique ) :

<?xml version="1.0" encoding="utf8"?>

<baselexicometrique>

<title>Modelisation XML de la base textometrique (le metier = le Cadre et la Trame), importable et echangeable avec d'autres plateformes</title>

</titleStmt>

Samedi 02 Juin 2012

22:15:57

Ce document n'est pas encore publie.

</publicationStmt>

<title>

Le Trameur 10.38.2. Samedi 02 Juin 2012

22:15:57 </title>

<content><l> Fichier traite dormeurL3.txt</l>

<l> Encodage iso-8859-1</l>

<l> Nombre d'items 295</l>

<l> Nombre de délimiteurs 168</l>

<l> Nombre d'occurrences de forme 127</l>

<l> Nombre de formes 97</l>

<l> Nombre d'hapax 80</l>

<l> Fréquence maximale 5</l>

<l> Forme maximale dans</l>

<l> Délimiteurs <![CDATA[. ,:;!?/_-"'()[]{}§$|*><=+

«» ]]></l>

<l> Etiquetage Treetagger OUI</l>

<l> Langue pour Treetagger français</l>

</content></sourceDesc>

</fileDesc>

</teiheader>

<Trame>

<delimiteur><![CDATA[. ,:;!?/_-"'()[]{}§$|*><=+

«» ]]></delimiteur>

<items>

<item type="delim" pos="1"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="3"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="4"><f>dormeur</f><c>NOM</c><l>dormeur</l></item>

<item type="delim" pos="5"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="7"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="9"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="10"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="12"><f>'</f><c>DELIM</c><l>'</l></item>

<item type="delim" pos="13"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="15"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="17"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="19"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="21"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="22"><f>verdure</f><c>NOM</c><l>verdure</l></item>

<item type="delim" pos="23"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="25"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="26"><f>chante</f><c>VER_pres</c><l>chanter</l></item>

<item type="delim" pos="27"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="29"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="30"><f>rivière</f><c>NOM</c><l>rivière</l></item>

<item type="delim" pos="31"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="32"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="33"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="34"><f>Accrochant</f><c>NAM</c><l>Accrochant</l></item>

<item type="delim" pos="35"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="36"><f>follement</f><c>ADV</c><l>follement</l></item>

<item type="delim" pos="37"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="39"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="40"><f>herbes</f><c>VER_pres</c><l>herber</l></item>

<item type="delim" pos="41"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="43"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="44"><f>haillons</f><c>NOM</c><l>haillon</l></item>

<item type="delim" pos="45"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="46"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="48"><f>'</f><c>DELIM</c><l>'</l></item>

<item type="delim" pos="49"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="50"><f>argent</f><c>NOM</c><l>argent</l></item>

<item type="delim" pos="51"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="52"><f>;</f><c>DELIM</c><l>;</l></item>

<item type="delim" pos="53"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="55"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="57"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="58"><f>soleil</f><c>NOM</c><l>soleil</l></item>

<item type="delim" pos="59"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="60"><f>;</f><c>DELIM</c><l>;</l></item>

<item type="delim" pos="61"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="63"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="65"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="66"><f>montagne</f><c>NOM</c><l>montagne</l></item>

<item type="delim" pos="67"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="68"><f>fière</f><c>ADJ</c><l>fier</l></item>

<item type="delim" pos="69"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="70"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="71"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="73"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="74"><f>:</f><c>DELIM</c><l>:</l></item>

<item type="delim" pos="75"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="77"><f>'</f><c>DELIM</c><l>'</l></item>

<item type="delim" pos="78"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="80"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="82"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="83"><f>petit</f><c>ADJ</c><l>petit</l></item>

<item type="delim" pos="84"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="86"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="88"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="89"><f>mousse</f><c>NOM</c><l>mousse</l></item>

<item type="delim" pos="90"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="92"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="93"><f>rayons</f><c>NOM</c><l>rayon</l></item>

<item type="delim" pos="94"><f>.</f><c>DELIM</c><l>.</l></item>

<item type="delim" pos="95"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="97"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="98"><f>soldat</f><c>NOM</c><l>soldat</l></item>

<item type="delim" pos="99"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="100"><f>jeune</f><c>ADJ</c><l>jeune</l></item>

<item type="delim" pos="101"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="102"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="103"><f>bouche</f><c>VER_pres</c><l>boucher</l></item>

<item type="delim" pos="104"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="105"><f>ouverte</f><c>ADJ</c><l>ouvert</l></item>

<item type="delim" pos="106"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="107"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="109"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="111"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="112"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="114"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="116"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="117"><f>nuque</f><c>NOM</c><l>nuque</l></item>

<item type="delim" pos="118"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="119"><f>baignant</f><c>VER_ppre</c><l>baigner</l></item>

<item type="delim" pos="120"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="122"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="124"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="125"><f>frais</f><c>ADJ</c><l>frais</l></item>

<item type="delim" pos="126"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="127"><f>cresson</f><c>NOM</c><l>cresson</l></item>

<item type="delim" pos="128"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="130"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="131"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="133"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="134"><f>;</f><c>DELIM</c><l>;</l></item>

<item type="delim" pos="135"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="137"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="139"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="140"><f>étendu</f><c>VER_pper</c><l>étendre</l></item>

<item type="delim" pos="141"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="143"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="145"><f>'</f><c>DELIM</c><l>'</l></item>

<item type="forme" pos="146"><f>herbe</f><c>NOM</c><l>herbe</l></item>

<item type="delim" pos="147"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="148"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="150"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="152"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="154"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="155"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="157"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="159"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="161"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="163"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="165"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="167"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="169"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="170"><f>lumière</f><c>NOM</c><l>lumière</l></item>

<item type="delim" pos="171"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="172"><f>pleut</f><c>VER_pres</c><l>pleuvoir</l></item>

<item type="delim" pos="173"><f>.</f><c>DELIM</c><l>.</l></item>

<item type="delim" pos="174"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="176"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="177"><f>pieds</f><c>NOM</c><l>pied</l></item>

<item type="delim" pos="178"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="180"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="182"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="183"><f>glaïeuls</f><c>NOM</c><l>glaïeul</l></item>

<item type="delim" pos="184"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="185"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="187"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="188"><f>dort</f><c>VER_pres</c><l>dormir</l></item>

<item type="delim" pos="189"><f>.</f><c>DELIM</c><l>.</l></item>

<item type="delim" pos="190"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="191"><f>Souriant</f><c>NAM</c><l>Souriant</l></item>

<item type="delim" pos="192"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="193"><f>comme</f><c>KON</c><l>comme</l></item>

<item type="delim" pos="194"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="forme" pos="195"><f>Sourirait</f><c>NAM</c><l>Sourirait</l></item>

<item type="delim" pos="196"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="198"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="199"><f>enfant</f><c>NOM</c><l>enfant</l></item>

<item type="delim" pos="200"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="201"><f>malade</f><c>ADJ</c><l>malade</l></item>

<item type="delim" pos="202"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="203"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="205"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="206"><f>fait</f><c>VER_pres</c><l>faire</l></item>

<item type="delim" pos="207"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="209"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="210"><f>somme</f><c>NOM</c><l>somme</l></item>

<item type="delim" pos="211"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="212"><f>:</f><c>DELIM</c><l>:</l></item>

<item type="delim" pos="213"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="forme" pos="214"><f>Nature</f><c>NAM</c><l>Nature</l></item>

<item type="delim" pos="215"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="216"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="217"><f>berce</f><c>VER_pres</c><l>bercer</l></item>

<item type="delim" pos="218"><f>-</f><c>DELIM</c><l>-</l></item>

<item type="delim" pos="220"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="221"><f>chaudement</f><c>ADV</c><l>chaudement</l></item>

<item type="delim" pos="222"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="223"><f>:</f><c>DELIM</c><l>:</l></item>

<item type="delim" pos="224"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="226"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="227"><f>a</f><c>VER_pres</c><l>avoir</l></item>

<item type="delim" pos="228"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="229"><f>froid</f><c>ADJ</c><l>froid</l></item>

<item type="delim" pos="230"><f>.</f><c>DELIM</c><l>.</l></item>

<item type="delim" pos="231"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="233"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="234"><f>parfums</f><c>NOM</c><l>parfum</l></item>

<item type="delim" pos="235"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="237"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="238"><f>font</f><c>VER_pres</c><l>faire</l></item>

<item type="delim" pos="239"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="241"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="242"><f>frissonner</f><c>VER_infi</c><l>frissonner</l></item>

<item type="delim" pos="243"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="245"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="246"><f>narine</f><c>NOM</c><l>narine</l></item>

<item type="delim" pos="247"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="248"><f>;</f><c>DELIM</c><l>;</l></item>

<item type="delim" pos="249"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="251"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="252"><f>dort</f><c>VER_pres</c><l>dormir</l></item>

<item type="delim" pos="253"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="255"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="257"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="258"><f>soleil</f><c>NOM</c><l>soleil</l></item>

<item type="delim" pos="259"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="260"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="262"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="264"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="266"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="268"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="269"><f>poitrine</f><c>NOM</c><l>poitrine</l></item>

<item type="delim" pos="270"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="271"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="forme" pos="272"><f>Tranquille</f><c>NAM</c><l>Tranquille</l></item>

<item type="delim" pos="273"><f>.</f><c>DELIM</c><l>.</l></item>

<item type="delim" pos="274"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="276"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="277"><f>a</f><c>VER_pres</c><l>avoir</l></item>

<item type="delim" pos="278"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="280"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="281"><f>trous</f><c>NOM</c><l>trou</l></item>

<item type="delim" pos="282"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="283"><f>rouges</f><c>ADJ</c><l>rouge</l></item>

<item type="delim" pos="284"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="286"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="288"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="289"><f>droit</f><c>NOM</c><l>droit</l></item>

<item type="delim" pos="290"><f>.</f><c>DELIM</c><l>.</l></item>

<item type="delim" pos="291"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="forme" pos="292"><f>Arthur</f><c>NAM</c><l>Arthur</l></item>

<item type="delim" pos="293"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="294"><f>Rimbaud</f><c>NAM</c><l>Rimbaud</l></item>

<item type="delim" pos="295"><f>RETURN</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="296"><f> </f><c>DELIM</c><l>BLANK</l></item>

</items>

</Trame>

<Cadre>

<acces>

</partition>

</partition>

</acces>

</Cadre>

</baselexicometrique>

Le fichier d’export contient tout d’abord la Trame (liste des positions des items et pour chacune d’elles les annotations disponibles : forme, lemme[21], catégorie[22], annotations importées) puis le Cadre (les intervalles de positions regroupant certaines unités de la Trame en parties structurées).

28 Exportation du Cadre et de la Trame

Il est possible d’exporter le Cadre et la Trame en tenant compte des éventuelles corrections apportées sur les mots, les lemmes ou les catégories ; de même les systèmes d’annotation importés (cf infra) seront intégrés dans les fichiers d’export.

En activant le bouton , le Trameur enregistre dans le dossier export 3 fichiers : la Trame, le Cadre et la Trame annotée.

Nous allons illustrer sur un exemple les formats des fichiers d’export.

28.1 Fichier de travail

<STRUCTURE="TITRE"> Le dormeur du val

<STRUCTURE="TEXTEPOEME">

<LIGNE="VERS1"> C' est un trou de verdure où chante une rivière,

<LIGNE="VERS2"> Accrochant follement aux herbes des haillons

<LIGNE="VERS3"> D' argent ; où le soleil ; de la montagne fière,

<LIGNE="VERS4"> Luit : c' est un petit val qui mousse de rayons.

<LIGNE="VERS5">Un soldat jeune, bouche ouverte, tête nue,

<LIGNE="VERS6">Et la nuque baignant dans le frais cresson bleu,

<LIGNE="VERS7">Dort ; il est étendu dans l'herbe, sous la nue,

<LIGNE="VERS8">Pâle dans son lit vert où la lumière pleut.

<LIGNE="VERS9">Les pieds dans les glaïeuls, il dort. Souriant comme

<LIGNE="VERS10">Sourirait un enfant malade, il fait un somme :

<LIGNE="VERS11">Nature, berce-le chaudement : il a froid.

<LIGNE="VERS12">Les parfums ne font pas frissonner sa narine ;

<LIGNE="VERS13">Il dort dans le soleil, la main sur sa poitrine,

<LIGNE="VERS14">Tranquille. Il a deux trous rouges au côté droit.

<STRUCTURE="AUTEUR">Arthur Rimbaud

28.2 Fichiers d’export

1. La Trame reconstituée :

Le dormeur du val

C' est un trou de verdure où chante une rivière,

Accrochant follement aux herbes des haillons

D' argent ; où le soleil ; de la montagne fière,

Luit : c' est un petit val qui mousse de rayons.

Un soldat jeune, bouche ouverte, tête nue,

Et la nuque baignant dans le frais cresson bleu,

Dort ; il est étendu dans l'herbe, sous la nue,

Pâle dans son lit vert où la lumière pleut.

Les pieds dans les glaïeuls, il dort. Souriant comme

Sourirait un enfant malade, il fait un somme :

Nature, berce-le chaudement : il a froid.

Les parfums ne font pas frissonner sa narine ;

Il dort dans le soleil, la main sur sa poitrine,

Tranquille. Il a deux trous rouges au côté droit.

Arthur Rimbaud

2. Le Cadre :

Rectangle à coins arrondis: entête <?xml version="1.0" encoding="iso-8859-1"?>

<Cadre>

<teiheader>

<fileDesc>

<titleStmt>

<title>Modelisation XML de la base Lexico (le metier = le Cadre et la Trame), importable et echangeable avec d'autres plateformes</title>

</titleStmt>

<publicationStmt>

Samedi 26 Mai 2007

10:50:52

Ce document n'est pas encore publie.

</publicationStmt>

<sourceDesc>

Fichier d'export genere par LeMetierLexicometrique 5.009 (aka le Trameur) (http://www.tal.univ-paris3.fr/trameur/).

Rectangle à coins arrondis: Cadre Fichier initilement traite : C:/SFleury/DEVEL/WIP-ANR-textometrrie/mkGraphTrameCadre/textes/dormeurL3.txt

Encodage : iso-8859-1

Delimiteur : \.\ \,\:\;\!\?\/\_\-\"\'\[\]\{\}\§\$\|\&gt;\&lt;\=\+

</sourceDesc>

</fileDesc>

</teiheader>

<acces>

<partition nom="ligne">

</partition>

<partition nom="structure">

</partition>

</acces>

</Cadre>

Rectangle à coins arrondis: entête 3. La Trame annotée :

<?xml version="1.0" encoding="iso-8859-1"?>

<trametreetagger>

<title>Modelisation XML de la base Lexico (le metier = le Cadre et la Trame), importable et echangeable avec d'autres plateformes</title>

</titleStmt>

Samedi 26 Mai 2007

10:41:33

Ce document n'est pas encore publie.

</publicationStmt>

Fichier d'export genere par LeMetierLexicometrique 5.009 (aka le Trameur) (http://www.tal.univ-paris3.fr/trameur/).

Fichier initilement traite : C:/SFleury/DEVEL/WIP-ANR-textometrrie/mkGraphTrameCadre/textes/dormeurL3.txt

Encodage : iso-8859-1

Delimiteur : \.\ \,\:\;\!\?\/\_\-\"\'\[\]\{\}\§\$\|\&gt;\&lt;\=\+

Rectangle à coins arrondis: Trame </sourceDesc>

</fileDesc>

</teiheader>

<items>

<item type="forme" pos="1"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="3"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="4"><f>dormeur</f><c>NOM</c><l>dormeur</l></item>

<item type="forme" pos="5"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="7"><f> </f><c>BLANK</c><l>BLANK</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="10"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="12"><f>'</f><c>DELIM</c><l>'</l></item>

<item type="forme" pos="13"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="15"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="17"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="19"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="21"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="22"><f>verdure</f><c>NOM</c><l>verdure</l></item>

<item type="forme" pos="23"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="25"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="26"><f>chante</f><c>VER_pres</c><l>chanter</l></item>

<item type="forme" pos="27"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="29"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="30"><f>rivière</f><c>NOM</c><l>rivière</l></item>

<item type="forme" pos="31"><f>,</f><c>DELIM</c><l>,</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="33"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="34"><f>Accrochant</f><c>NAM</c><l>Accrochant</l></item>

<item type="forme" pos="35"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="36"><f>follement</f><c>ADV</c><l>follement</l></item>

<item type="forme" pos="37"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="39"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="40"><f>herbes</f><c>VER_pres</c><l>herber</l></item>

<item type="forme" pos="41"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="43"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="44"><f>haillons</f><c>NOM</c><l>haillon</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="46"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="48"><f>'</f><c>DELIM</c><l>'</l></item>

<item type="forme" pos="49"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="50"><f>argent</f><c>NOM</c><l>argent</l></item>

<item type="forme" pos="51"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="52"><f>;</f><c>DELIM</c><l>;</l></item>

<item type="forme" pos="53"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="55"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="57"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="58"><f>soleil</f><c>NOM</c><l>soleil</l></item>

<item type="forme" pos="59"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="60"><f>;</f><c>DELIM</c><l>;</l></item>

<item type="forme" pos="61"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="63"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="65"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="66"><f>montagne</f><c>NOM</c><l>montagne</l></item>

<item type="forme" pos="67"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="68"><f>fière</f><c>ADJ</c><l>fier</l></item>

<item type="forme" pos="69"><f>,</f><c>DELIM</c><l>,</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="71"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="73"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="74"><f>:</f><c>DELIM</c><l>:</l></item>

<item type="forme" pos="75"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="77"><f>'</f><c>DELIM</c><l>'</l></item>

<item type="forme" pos="78"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="80"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="82"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="83"><f>petit</f><c>ADJ</c><l>petit</l></item>

<item type="forme" pos="84"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="86"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="88"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="89"><f>mousse</f><c>NOM</c><l>mousse</l></item>

<item type="forme" pos="90"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="92"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="93"><f>rayons</f><c>NOM</c><l>rayon</l></item>

<item type="forme" pos="94"><f>.</f><c>DELIM</c><l>.</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="97"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="98"><f>soldat</f><c>NOM</c><l>soldat</l></item>

<item type="forme" pos="99"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="100"><f>jeune</f><c>ADJ</c><l>jeune</l></item>

<item type="forme" pos="101"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="forme" pos="102"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="103"><f>bouche</f><c>VER_pres</c><l>boucher</l></item>

<item type="forme" pos="104"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="105"><f>ouverte</f><c>ADJ</c><l>ouvert</l></item>

<item type="forme" pos="106"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="forme" pos="107"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="109"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="111"><f>,</f><c>DELIM</c><l>,</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="114"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="116"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="117"><f>nuque</f><c>NOM</c><l>nuque</l></item>

<item type="forme" pos="118"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="119"><f>baignant</f><c>VER_ppre</c><l>baigner</l></item>

<item type="forme" pos="120"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="122"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="124"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="125"><f>frais</f><c>ADJ</c><l>frais</l></item>

<item type="forme" pos="126"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="127"><f>cresson</f><c>NOM</c><l>cresson</l></item>

<item type="forme" pos="128"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="130"><f>,</f><c>DELIM</c><l>,</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="133"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="134"><f>;</f><c>DELIM</c><l>;</l></item>

<item type="forme" pos="135"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="137"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="139"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="140"><f>étendu</f><c>VER_pper</c><l>étendre</l></item>

<item type="forme" pos="141"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="143"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="145"><f>'</f><c>DELIM</c><l>'</l></item>

<item type="forme" pos="146"><f>herbe</f><c>NOM</c><l>herbe</l></item>

<item type="forme" pos="147"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="forme" pos="148"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="150"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="152"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="154"><f>,</f><c>DELIM</c><l>,</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="157"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="159"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="161"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="163"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="165"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="167"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="169"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="170"><f>lumière</f><c>NOM</c><l>lumière</l></item>

<item type="forme" pos="171"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="172"><f>pleut</f><c>VER_pres</c><l>pleuvoir</l></item>

<item type="forme" pos="173"><f>.</f><c>DELIM</c><l>.</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="176"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="177"><f>pieds</f><c>NOM</c><l>pied</l></item>

<item type="forme" pos="178"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="180"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="182"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="183"><f>glaïeuls</f><c>NOM</c><l>glaïeul</l></item>

<item type="forme" pos="184"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="forme" pos="185"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="187"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="188"><f>dort</f><c>VER_pres</c><l>dormir</l></item>

<item type="forme" pos="189"><f>.</f><c>DELIM</c><l>.</l></item>

<item type="forme" pos="190"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="191"><f>Souriant</f><c>NAM</c><l>Souriant</l></item>

<item type="forme" pos="192"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="193"><f>comme</f><c>KON</c><l>comme</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="195"><f>Sourirait</f><c>NAM</c><l>Sourirait</l></item>

<item type="forme" pos="196"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="198"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="199"><f>enfant</f><c>NOM</c><l>enfant</l></item>

<item type="forme" pos="200"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="201"><f>malade</f><c>ADJ</c><l>malade</l></item>

<item type="forme" pos="202"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="forme" pos="203"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="205"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="206"><f>fait</f><c>VER_pres</c><l>faire</l></item>

<item type="forme" pos="207"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="209"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="210"><f>somme</f><c>NOM</c><l>somme</l></item>

<item type="forme" pos="211"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="212"><f>:</f><c>DELIM</c><l>:</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="214"><f>Nature</f><c>NAM</c><l>Nature</l></item>

<item type="forme" pos="215"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="forme" pos="216"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="217"><f>berce</f><c>VER_pres</c><l>bercer</l></item>

<item type="forme" pos="218"><f>-</f><c>DELIM</c><l>-</l></item>

<item type="forme" pos="220"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="221"><f>chaudement</f><c>ADV</c><l>chaudement</l></item>

<item type="forme" pos="222"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="223"><f>:</f><c>DELIM</c><l>:</l></item>

<item type="forme" pos="224"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="226"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="227"><f>a</f><c>VER_pres</c><l>avoir</l></item>

<item type="forme" pos="228"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="229"><f>froid</f><c>ADJ</c><l>froid</l></item>

<item type="forme" pos="230"><f>.</f><c>DELIM</c><l>.</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="233"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="234"><f>parfums</f><c>NOM</c><l>parfum</l></item>

<item type="forme" pos="235"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="237"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="238"><f>font</f><c>VER_pres</c><l>faire</l></item>

<item type="forme" pos="239"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="241"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="242"><f>frissonner</f><c>VER_infi</c><l>frissonner</l></item>

<item type="forme" pos="243"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="245"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="246"><f>narine</f><c>NOM</c><l>narine</l></item>

<item type="forme" pos="247"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="248"><f>;</f><c>DELIM</c><l>;</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="251"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="252"><f>dort</f><c>VER_pres</c><l>dormir</l></item>

<item type="forme" pos="253"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="255"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="257"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="258"><f>soleil</f><c>NOM</c><l>soleil</l></item>

<item type="forme" pos="259"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="forme" pos="260"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="262"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="264"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="266"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="268"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="269"><f>poitrine</f><c>NOM</c><l>poitrine</l></item>

<item type="forme" pos="270"><f>,</f><c>DELIM</c><l>,</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="272"><f>Tranquille</f><c>NAM</c><l>Tranquille</l></item>

<item type="forme" pos="273"><f>.</f><c>DELIM</c><l>.</l></item>

<item type="forme" pos="274"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="276"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="277"><f>a</f><c>VER_pres</c><l>avoir</l></item>

<item type="forme" pos="278"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="280"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="281"><f>trous</f><c>NOM</c><l>trou</l></item>

<item type="forme" pos="282"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="283"><f>rouges</f><c>ADJ</c><l>rouge</l></item>

<item type="forme" pos="284"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="286"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="288"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="289"><f>droit</f><c>NOM</c><l>droit</l></item>

<item type="forme" pos="290"><f>.</f><c>DELIM</c><l>.</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="292"><f>Arthur</f><c>NAM</c><l>Arthur</l></item>

<item type="forme" pos="293"><f> </f><c>BLANK</c><l>BLANK</l></item>

<item type="forme" pos="294"><f>Rimbaud</f><c>NAM</c><l>Rimbaud</l></item>

</f><c>RETURN</c><l>RETURN</l></item>

<item type="forme" pos="296"><f> </f><c>BLANK</c><l>BLANK</l></item>

</items>

</trametreetagger>

29 Le rapport : enregistrement des résultats produits

Les résultats qui intéressent l'utilisateur pour une exploitation ultérieure peuvent être rassemblés dans un dossier construit dans le répertoire rapport. Ce dossier aisément manipulable à l'aide d'un navigateur web (Firefox, Internet Explorer, Safari, etc.) contient un fichier d’index qui permet la navigation parmi les résultats sélectionnés. Le rapport peut être consulté dès que l'utilisateur l'a enregistré.

29.1 Ajouter un élément au rapport

Pour ajouter un document au rapport, il suffit de se positionner sur un onglet (ou une fenêtre) contenant un résultat produit par le programme puis de cliquer sur l'icône Ajouter au rapport présente dans la fenêtre principale ou dans la fenêtre de résultats (c’est le cas pour les spécificités).

Figure 242 : Ajouter un élément au rapport

Une trace des éléments ajoutés au rapport est visible de manière synthétique dans l’onglet RAPPORT.

Le rapport est constitué par un cartouche et la liste des éléments ajoutés par l’utilisateur. Chacun des éléments du rapport dispose d’une zone de texte « libre » dans laquelle l’utilisateur peut y noter ses observations. Pour éditer ou modifier cette note, il suffit d’activer l’icône de l’éditeur présent près de chaque élément du rapport dans l’onglet RAPPORT.

Figure 243 : Rapport en cours dans l’onglet RAPPORT

29.2 Ajouter un élément externe au rapport

Cette fonctionnalité permet à l’utilisateur d’insérer dans le rapport des images externes (non produites directement par le Trameur). Par exemple, si l’on souhaite insérer une image donnant à voir la carte des sections, on peut le faire en procédant de la manière suivante :

- créer une copie d’écran de la carte des sections (par exemple avec un outil comme FastStone Capture http://www.faststone.org/) et sauvegarder la copie d’écran au format jpeg ou gif

- insérer l’image dans le rapport en utilisant le menu idoine dans l’onglet RAPPORT

Figure 244 : Ajouter un élément externe au rapport

29.2 Enregistrer le rapport

On peut à tout moment visualiser le rapport en cliquant sur le bouton Enregistrer le rapport . Une fois activé, ce bouton déclenche la génération d’un « dossier rapport ». Ce dossier contient, dans la distribution initiale du Trameur, des feuilles de styles XSL (pour chaque type de résultat à afficher) et une feuille de styles CSS (pour gérer l’affichage général des toutes les pages du rapport). Les fichiers construits pour un rapport sont au format XML et ils sont rassemblés dans un sous-dossier horodaté du dossier rapport.

Figure 245 : Rapport enregistré

Après enregistrement, le rapport apparaît dans le navigateur web paramétré par défaut sur la machine utilisée (ici Firefox) :

Figure 246 : Index du rapport enregistré

Chaque élément du rapport contient un menu de navigation (à gauche) pour accéder à tous les résultats construits (les différents éléments du rapport) et (à droite) de la description de l’élément visé.

Cette description d’un élément du rapport (sur la droite) est constituée :

d’un corps (le contenu de l’élément du rapport pour les fichiers résultats ou une liste des éléments du rapport pour le fichier d’index)
d’une note : zone de texte libre renseignée par l’utilisateur

Figure 247 : Elément du rapport enregistré

On trouvera un exemple complet de rapport sur la page web du Trameur.

30 Fonctionnalités complémentaires

30.1 Graphes d’annotation

30.1.1 Intégration dans le Trameur d’un module d’importation d’un graphe d’annotations sur la Trame

(cf « Perspective fonctionnelle de la phrase : la relation thème-rhème » F. Daoust 2009)

Illustration sur l’exemple de François :

Et un jour Jeanie partit à la recherche de son amoureux. Elle regardait les fleurs d' eau et leurs tiges penchées : et toutes les fleurs s' inclinaient vers elle. Et Jeanie disait en marchant ...

Les données de test utilisées ici (fichiers texte de travail et annotation+graphe) sont disponibles dans le dossier textes du répertoire de travail du Trameur après installation.

Etape 1

Ce texte est chargé dans le Trameur (création d’une base textométrique) : une Trame est créée, pas de Cadre explicite ici.

Le schéma suivant décrit le système d’annotation et son graphe (cf Daoust 2009):

Le fichier suivant décrit un exemple de fichier à importer décrivant le système d’annotation (positions sur la Trame) et le graphe associé :

<?xml version="1.0" encoding="iso-8859-1"?>

<TEI>

<title>Export Graphe Annotation sur la Trame d'un texte via Le Trameur 8.0b074</title>

</titleStmt>

...

</publicationStmt>

</sourceDesc>

</fileDesc>

...

</encodingDesc>

</teiHeader>

<text>

<body>

</graph>

</body>

</text>

</TEI>

· Chaque élément node décrit les positions visées de la Trame (via l’attribut positions), et la valeur du label pour ce nœud de positions (via l’attribut labelnode). Quand le label du nœud n’est pas spécifié explicitement, une valeur par défaut lui est attribuée (les positions de ses constituants).

· Chaque élément arc décrit les liens entre les éléments node : l’attribut from porte les positions de la Trame du nœud source de l’arc, l’attribut to porte les positions de la Trame du nœud cible de l’arc, l’attribut labelfrom porte la valeur du label du nœud source, l’attribut labelto porte la valeur du label du nœud cible et l’attribut labelarc porte la valeur du label associé à l’arc.

Les positions de la Trame sont désignées en les listant une à une et en respectant ce format : positions="26_27_35", ici 3 positions discontinues de la Trame sont désignées.

Etape 2 : importation de l’annotation et du graphe associé dans Le Trameur

Figure 248 : Importation d'annotation+graphe

Une fois chargée, le graphe est disponible en mémoire dans le Trameur (1). On peut aussi visualiser le graphe de cette annotation (2).

30.1.1 Génération de graphes d’annotations

Nous allons montrer ci-dessous comment générer directement dans le Trameur un tel graphe en reconstruisant le graphe vu dans la partie précédente.

Etape 1

Le texte précédent est chargé dans le Trameur (création d’une base textométrique) : une Trame est créée, pas de Cadre explicite ici.

Figure 249 : Chargement de la base, accès à la Trame par le Cadre

L’éditeur de la Trame (accès par le Cadre ici), permet de définir des nœuds : le raccourci clavier Control-Clic sur un item de la Trame permet de le sélectionner, dans l’exemple suivant, les 4 premiers items sont sélectionnés, ils vont être utilisés pour définir le premier nœud du graphe.

Figure 250 : Sélection des items constituant un nœud du graphe

On peut ensuite générer le nœud (nœud1) (double-clic dans l’éditeur) et le donner à voir dans l’onglet GRAPHE :

Figure 251 : Construction du nœud

Control-Clic sur le nœud permet de lui associer un label (valeur qui sera associée à chaque item constituant le nœud défini pour l’annotation en cours de construction) :

Figure 252 : Insertion d'un label sur le nœud

Figure 253 : Le nœud a un label

On peut ensuite réitérer l’opération de création d’un nœud (nœud2) :

Figure 254 : De nouveaux nœuds…

Pour créer un arc entre nœud1 et nœud2, on sélectionne le nœud source (clic-droit sur nœud1 qui devient rouge) puis on sélectionne le nœud cible (clic-droit sur nœud2 qui devient bleu). L’arc est ensuite généré :

Figure 255 : La source d'un arc

Figure 256 : La cible de l'arc... l'arc est défini

Control-Clic sur l’arc permet de lui associer un label :

Figure 257 : Ajout d'un label sur l'arc

Figure 258 : L'arc a son label

Une fois le graphe complet construit,

Figure 259 : Graphe complet construit

il est possible de le « générer », ce processus permet de créer un fichier dont le format est similaire à celui présenté supra :

Figure 260 : Sauvegarde du graphe

Ce fichier est ensuite ré-importable par le processus décrit dans la partie 1.

30.1.3 Exploitation des graphes d’annotation

Chantier en cours.

30.2 Base textométrique de textes alignés

30.2.1 Mise au jour d’alignement dans la carte des sections

Objectif : Mise au jour d’un alignement par sections dans la représentation graphique d’un corpus aligné via la Carte des sections

Corpus exemple : plusieurs traductions alignées du discours d’investiture de Barak Obama en 2009.

· volet-en : la transcription parue sur le site du New York Times

http://www.nytimes.com/2009/01/20/us/politics/20text-obama.html

· volet -fr-1 : la traduction du discours mise en ligne sur le site du journal Le Monde

(URL non accessible hors abonnement)

· volet -fr-2 : la traduction du discours mise en ligne sur le site du journal Libération (AFP)

http://www.liberation.fr/monde/0101313402-point-par-point-le-discours-d-investiture-de-barack-obama-nouveau-president-des-etats-unis

· volet -fr-3 : la traduction du discours mise en ligne sur le site de RFI

http://www.rfi.fr/actufr/articles/109/article_77584.asp

· volet -fr-4 : la traduction du discours via Google de volet-en

http://translate.google.fr/

Ces 5 volets sont disponibles dans un fichier au format TMX.

On présente ci-dessous une illustration des différents paramétrages d’affichage de la carte des sections sur un corpus exemple décrit ci-dessus.

Méthode n°1 : Lecture du fichier alignement au format TMX

· Le Trameur peut lire directement le fichier au format TMX contenant les 5 volets

· Une fois chargé, on peut visualiser cet alignement via la carte des sections en choisissant comme délimiteur de partie l'élément tu (bloc de traduction contenant les différents volets de la même zone textuelle (phrases par exemple))

· L'alignement à gauche des sections permet de visualiser globalement tous les blocs et leurs différents volets (par section)

Figure 261 : Alignement, partition tu (1)

Le marquage de blocs de sections est ici maintenu.

Figure 262 : Alignement, partition tu (2)

Le marquage de blocs de sections est ici inhibé.

Inconvénient : on n’a pas la vue globale permettant de contraster les 4 volets

Méthode n°2 : Lecture du fichier alignement au format Lexico/Trameur

· Reconstruction des 4 volets :

o A partir du TMX précédent, chargement du TMX dans mkAlign[23]

o sauvegarde de chacun des volets (format txt) : les éléments tuv du fichier TMX étant potentiellement une section

· Concaténation des 4 volets dans un même fichier et insertion de balise : <volet=en>...<volet=fr1> etc.

· Chargement dans le Trameur + carte des sections + alignement à gauche

Figure 263 : Alignement, partition volet (1)

Marquage des blocs de sections (projection de la famille de mots « travail / work » sur la carte des sections).

Figure 264 : Alignement, partition volet (2)

Inhibition du marquage des blocs de sections.

Ici, les 4 volets alignés sont visualisables globalement (par section (tuv dans le TMX de départ))

30.2.2 Exploration d’une base textométrique de textes alignés

Cette section présente les fonctionnalités permettant de d’explorer une base intégrant 2 (ou plusieurs) textes alignés. Cette mise à jour reprend une fonctionnalité déjà disponible dans mkAlign[24] permettant notamment de mettre à jour des équivalents traductionnels dans des textes alignés par un calcul de cooccurrence réalisé en parallèle sur 2 volets de l’alignement traité.

30.2.2.1 Chargement d’une nouvelle base intégrant 2 textes bilingues alignés

Pour illustrer cette fonctionnalité, nous commençons par choisir un exemple de texte bilingue à charger par la suite dans le Trameur. Nous travaillerons ici sur un texte de convention européenne disponible en français et en anglais, ces 2 volets étant alignés (ces 2 fichiers sont disponibles dans le programme mkAlign).

Figure 265 : fichier 1, volet français (extrait)

Figure 266 : fichier 1, volet anglais (extrait)

Les 2 textes sont structurés en partie (via un système de balisage). L’alignement est matérialisé dans les 2 volets par le caractère # qui induit les alignements respectifs des différents paragraphes.

Dans mkAlign, les 2 fichiers sont chargés un à un (le volet FR et le volet EN) dans les 2 volets de l'alignement.

Figure 267 : Edition d'un alignement dans mkAlign

Pour le Trameur, la base textométrique est construite ici par concaténation des 2 fichiers en un seul fichier, en intégrant en outre un marqueur de partie supplémentaire pour contraster les 2 volets ( <volet="FR"> et <volet="EN"> au début de chacun des 2 volets).

Figure 268 : Préparation d'une base textométrique de textes bilingues alignés

La figure précédente donne à voir le fichier construit en mettant au jour les 2 volets (2 zones différentes du même fichier : le volet FR suivi du volet EN). Une fois chargée dans le Trameur (le caractère # ayant été ajouté à la liste des délimiteurs), la Carte des sections a l’allure suivante (avec le caractère # comme délimiteur de sections):

Figure 269 : Carte des sections d'un alignement dans le Trameur

On choisit d'afficher la partition VOLET pour contraster les 2 volets et on aligne à gauche les sections. Dans mkAlign, la Carte des sections de l’alignement a l’allure suivante :

Figure 270 : Carte des sections d'un alignement dans mkAlign

L’alignement se lit de manière horizontale. Contrairement à mkAlign, l'alignement produit via la Carte des sections dans le Trameur se lit de manière verticale ; dans la figure précédente, le premier carré FR a son "miroir" au « bout de la flèche »… Si on projette une forme sur la carte, on obtient ceci :

Dans mkAlign :

Figure 271 : Projection d'une forme sur carte des sections dans mkAlign

Le mot « conseil » est projeté sur le volet FR (à gauche), la zone miroir est matérialisée dans le volet EN par des carrés cerclés de rouge.

Dans le Trameur :

Figure 272 : Projection d'une forme sur la carte des sections dans Le Trameur

Le mot « conseil » est projeté sur la carte, seul le volet FR (en haut) met au jour la présence de la forme visée dans les sections cochées, la zone miroir n’est pas directement matérialisée dans le volet EN.

Dans le Trameur, le calcul des spécificités des sections contenant une forme projetée tient compte du vocabulaire de l'ensemble du corpus (ici les 2 volets). Alors que dans mkAlign, ce calcul se fait sur le volet FR et en parallèle sur le volet EN (les 2 volets étant dissociés).

La nouvelle fonctionnalité introduite dans le Trameur consiste à "dissocier" les 2 volets de l’alignement et à reproduire un calcul en parallèle sur les 2 volets (i.e comme dans mkAlign) :

Calcul des cooccurrences sur les sections contenant la forme projetée sur le volet FR
En parallèle, calcul des cooccurrences sur les sections miroirs des précédentes

Pour cela, on dispose d'un nouveau menu dans l'onglet "Section" :

Figure 273 : Paramétrage d'un bitexte

Dans la zone BITEXTE : il est possible de considérer la Carte des sections comme une concaténation de 2 volets alignés.

Figure 274 : Mise au jour du bitexte via la carte des sections

C’est le cas ci-dessus, pour la partition VOLET, on dispose bien d’une partie VOLET=FR et d’une partie VOLET=EN, les sections de chacun de ces volets étant alignées verticalement.

Pour amorcer le calcul, on paramètre donc les 2 volets à contraster : le volet V1 est celui contenant la forme projetée (ici FR est renseignée dans la zone de saisie V1) et le volet V2 est le miroir (ici EN dans la zone de saisie V2).

Le bouton du milieu permet de lancer le calcul qui produit ceci : (2 extraits : volet SOURCE et volet CIBLE)

Figure 275 : Spécificités volet SOURCE de l'alignement

Figure 276 : Spécificités volet CIBLE de l'alignement

Le calcul a produit le calcul des cooccurrences sur les sections du volet FR contenant la forme projetée (le mot « conseil »), i.e le volet SOURCE ; en parallèle ce calcul a aussi été réalisé sur le volet CIBLE : les sections miroir des précédentes dans lesquelles on trouve par exemple l’équivalent traductionnel de « conseil » mis au jour par le calcul. C'est à dire la même chose que via mkAlign :

Figure 277 : Spécificités des volets SOURCE et CIBLE via mkAlign

30.2.2.2 Chargement d’une nouvelle base intégrant 2 textes alignés

Le même type de calcul est possible sur une base intégrant 2 textes alignés d’une même langue, par exemple deux traductions alignées d’un même texte. Nous considérons ici 2 traductions[25] de l’ouvrage d’Hemingway « Le vieil homme et la mer » : celle de J. Dutourd (1952) et celle de F. Bon (2012).

Figure 278 : Base textométrique de 2 traductions alignées

Comme précédemment, une base regroupant les 2 traductions est obtenue en concaténant les 2 fichiers. La figure précédente donne à voir le début des 2 volets dans la base ainsi constituée. Une fois le fichier chargé, la Carte des sections a cette allure :

Figure 279 : Carte des sections d'un alignement de traductions dans le Trameur

Le volet « TRADUCTION1 » correspond à la traduction de Dutourd, le volet « TRADUCTION2 » à celle de Bon. La projection de la forme « vieil » sur la carte produit cette ventilation :

Figure 280 : Projection d'une forme sur les 2 traductions alignées

Cette forme est présente dans les 2 volets et massivement dans le second. Le calcul des cooccurrents présenté supra se fait en considérant les 2 volets comme 2 parties disjointes. Ici, la partie TRADUCTION2 est considérée comme le volet SOURCE et la partie TRADUCTION1 comme le volet CIBLE. Le résultat produit est le suivant :

Figure 281 : Spécificités sur volet SOURCE (TRADUCTION2) : sections contenant le motif "vieil"

Figure 282 : Spécificités sur volet CIBLE (TRADUCTION1) :

sections MIROIR des sections contenant le motif "vieil"

Dans la traduction de F. Bon, on trouve plutôt la séquence « le vieil homme » et dans celle de J. Dutourd, la séquence « le vieux ».

30.2.2.3 Base textométrique : alignement au format TMX

Un alignement au format TMX permet lui aussi de réaliser un calcul contrastif de cooccurrences sur 2 des volets intégrés dans ce type d'alignement. Nous prendrons ici comme exemple de fichier TMX, un alignement intégrant 4 volets de l'ouvrage “Le vieil homme et la mer” : le volet anglais original (noté en), les 2 volets traduits en français déjà mentionnés (noté fr1 et fr2) et un volet traduit en espagnol (noté es).

Le fichier a l'allure suivante (affichage partiel du fichier dans un navigateur, puis dans un éditeur (code source)):

Figure 283 : Alignement TMX dans un navigateur (avec feuille de styles)

Figure 284 : Alignement TMX (code source)

La figure précédente donne à voir 2 zones de texte avec pour chacune les 4 volets de langue (dans un ordre identique : en, fr1, fr2, es). Pour la première zone de texte dans le code source, seules les 2 premières langues sont affichées dans l’éditeur.

Un alignement TMX peut être schématisé ainsi :

Figure 285 : Alignement TMX , arbre des éléments

Chaque élément tu de l'arbre XML encapsule les différents volets de traduction dans autant d'éléments tuv. L'alignement se lit de manière verticale pour chaque unité de langue (tu) dans la figure précédente.

Pour contraster 2 volets, il faut donc pouvoir mettre au jour les 2 parties visées : pour la source, tous les éléments tuv d'une langue donnée contenant la forme visée ; pour la cible, les éléments tuv miroirs des précédents dans une autre langue.

Dans le Trameur, la Carte des sections peut mettre au jour un alignement des différents volets d'un fichier TMX :

Figure 286 : Carte des sections d'un alignement TMX avec le Trameur

Ici la Carte des sections est générée à partir de la partition tuv i.e l'ensemble des parties tuv de la base textométrique construite à partir de l'alignement TMX. Ces parties intégrées dans le Cadre de la base textométrique sont identifiables par leurs positions sur la Trame : positions de début et de fin. Dans la carte construite, chaque colonne de sections coïncide avec un volet de l'alignement (1 colonne = 1 langue).

Figure 287 : 1 colonne = 1 volet = 1 langue

Identifier une colonne consiste donc à spécifier le volet visé i.e la langue des sections tuv de cette colonne. Les langues sont identifiables par les attributs lang des balises tuv (visibles dans le fichier source supra). La Carte des sections précédente est construite sur la partition tuv, les volets visés doivent être identifiés par la valeur de la langue du volet source et celle du volet cible. Au final, identifier 2 volets distincts consiste à donner un couple de langues parmi celles encodées dans les balises tuv du fichier TMX. Une section source donnée ayant une section cible miroir dans un voisinage de sections de longueur égal au nombre de volets de l'alignement (i.e le nombre de balises tuv dans les éléments tu) et les positions respectives d'une section source et d'une section cible restant inchangées tout au long du fichier TMX. Au final, les couples de sections alignées sont aisément identifiables.

Figure 288 : Distribution d'une forme sur la carte de l'alignement

Une forme étant projetée sur la carte des sections, le calcul de ses cooccurrents consiste à spécifier les 2 volets à contraster. Si on projette la forme “vieil”, a priori, seuls les volets fr2 et fr1 contiennent des sections avec cette forme (colonne 2 et 3 de la carte), la figure précédente donne à voir un extrait de cette distribution.

Le paramétrage du calcul des cooccurrents consiste à définir la valeur de 2 langues à contraster. Nous allons examiner ci-dessous les 2 couples de volets (fr2,fr1) et (fr2,en).

Figure 289 : Contraste de volets (2 à 2)

Pour le couple (fr2, fr1), le paramétrage du calcul est visible ci-dessous : la case à cocher TMX permet de préciser que la base chargée est un alignement au format TMX, les 2 zones de saisie V1 et V2 permettent de spécifier les langues à contraster (attributs lang des éléments tuv), ici :

V1 <= xml:lang=fr2 (SOURCE)

V2 <= xml:lang=fr1(CIBLE)

Figure 290 : Contraste de 2 volets (FR2, FR1)

Et le résultat du calcul a l’allure suivante :

Figure 291 : Spécificités volet SOURCE (FR2)

Figure 292 : Spécificités volet CIBLE (FR1)

On retrouve ci-dessus les résultats produits précédemment.

De même, pour le couple (fr2, en), le paramétrage du calcul est visible ci-dessous :

Figure 293 : Contraste de 2 volets (FR2, EN)

Et le résultat produit a l’allure suivante :

Figure 294 : Spécificités volet SOURCE (FR2)

Figure 295 : Spécificités volet CIBLE (EN)

30.2.2.4 Importer une base « d’alignements » multi-annotée

Les calculs présentés ci-dessus peuvent être réalisés sur tous les niveaux d’annotation disponibles dans la base textométrique chargée dans le Trameur.

Nous allons illustrer cette fonctionnalité en construisant une base multi-annotée et intégrant 2 volets alignés. Pour cela, nous procédons de la manière suivante :

Chargement avec le Trameur de la base complète précédente (convention FR et EN) avec étiquetage en Français via treetagger
Export de la base précédente : création d’une base multi-annotée (BASE-FR-EN) d’un bitexte, le volet FR est « bien » annoté, le volet EN ne l’est pas.
Chargement avec le Trameur d’une base constituée uniquement du volet EN avec étiquetage en Anglais via treetagger
Export de la base précédente : création d’une base multi-annotée du volet EN (BASE-EN)
Dans un éditeur, suppression dans la base BASE-FR-EN de la Trame correspondant au volet EN et insertion « au même endroit » de la Trame de la base BASE-EN. Dans la base BASE-FR-EN, les 2 volets sont désormais « bien » annotés (chaque volet ayant son propre jeu d’annotations)

La base BASE-FR-EN peut finalement être importée dans le Trameur

La base résultante est visible dans la figure suivante (2 extraits de la Trame dans lesquels on donne à voir le début des 2 volets) : chaque item de la Trame dispose de 3 niveaux d’annotation : forme (balise <f>), lemme (balise <l>) et POS (balise (<c>).

Figure 296 : Base textométrique multiannotée d'un alignement de textes bilingues

Une fois importée, les mêmes calculs peuvent être réalisés sur la Carte des sections mettant au jour l’alignement.

On pourrait bien entendu disposer d’une base multi-annotée et intégrant 2 volets alignés en procédant d’une autre manière : on pourrait par exemple projeter (via un programme ou à la main) des annotations sur la Trame d’une base intégrant 2 volets alignés.

30.2.2.5 Calculs contrastifs sur une base textométrique de textes alignés

Au delà du calcul des cooccurrents sur 2 volets alignés d’une base textométrique via la Carte des sections, il est possible de mener des calculs textométriques sur chacun des volets en utilisant le Gestionnaire de Sélection et notamment les modules permettant de lancer des calculs sur telle ou telle partie de la base de travail.

Sur la base précédente par exemple, les modules de calcul encadrés dans la figure suivante peuvent être lancés sur un des volets de la base après sélection du volet visé dans la liste des parties de la partition volet.

Figure 297 : Calculs contrastifs sur une base textométrique d'alignements

30.2.3 Outils et méthodes d’exploration d’un alignement

Dans la suite de ce document, 2 bases textométriques sont utilisées :

Base bilingue ParTUT2Trameur (français/anglais). Les 2 volets de cette base disposent de 9 niveaux d'annotation (Alignement de treebank). Cette base permet de tester les traitements spécifiques pour les bases textométriques intégrant 2 textes.
Alignement de Treebank pour le Trameur (pdf) : présentation du processus de transcodage de 2 treebanks ParTUT pour construire une base Textométrique.
Base bilingue "Investiture Obama" (français/anglais). Cette base regroupe le discours original en anglais prononcé par B. Obama le 20 janvier 2009 à Washington, publié sur le site de The New York Times (volet EN), et 4 traductions françaises de ce discours (volets FR0-1-2-3). Les traductions ont été récupérées sur le site officiel de la Maison Blanche (volet FR0), sur les sites des journaux français Le Monde (volet FR1) et Libération (volet FR2), ainsi que sur le site de RFI (volet FR3). Les 5 volets de cette base disposent de 3 niveaux d'annotation (forme, lemme, catégorie). Cette base permet de tester les traitements spécifiques pour les bases textométriques intégrant 2 textes alignés.

30.2.3.1 Edition d’un alignement multi-volets

La base Investiture étant chargée (par importation), la carte des sections construite via le délimiteur de section § a l’allure suivante :

Figure 298 : Carte de sections d’un alignement multi-volets

L’alignement des 5 volets se lit de manière verticale comme dans les exemples précédents. Sous la carte des sections, une case à cocher et une zone de saisie permettent de modifier l’affichage des sections. Par défaut, un clic sur une section affiche le contenu de la section dans l’éditeur de section. Si la case à cocher Bitext est cochée et si on donne le nombre de volets présents dans l’alignement chargé et mis au jour dans la carte des sections :

Dans ce cas, l’édition de la section cliquée se fait en insérant aussi ses sections miroirs.

Figure 299 : Edition d’un alignement multi-volets

Dans la figure précédente, le clic sur la section du volet EN (carré bleu) déclenche la mise au jour des sections miroirs et l’affichage en parallèle de tous les contenus de ces sections alignées.

Remarque : la section cliquée dans la carte est éditée sur la gauche de l’éditeur multi-volets, ses miroirs sont ensuite éditées sur sa droite dans l’ordre d’apparition dans la carte.

30.3.3.2 Opérations dans une section multi-volets

Toutes les opérations disponibles dans l’éditeur de section peuvent désormais être réalisées sur une section multi-volets. Ci-dessous, l’affichage de 3 niveaux d’annotations sur les 5 sections éditées conjointement :

Figure 300 : Opérations dans une section multi-volets

30.3.3.3 Exporter un alignement au format HTML

Quand un alignement multi-volets est chargé, il est possible d’exporter des résultats de recherche ou l’alignement complet dans un fichier au format HTML.

Figure 301 : Export de corpus alignés (HTML)

Ci-dessous, un exemple du résultat produit :

Les motifs cherchés sont matérialisés en rouge gras, les items préalablement sélectionnés via le Gestionnaire de Sélection sont matérialisés en jaune.

On trouvera en ligne des exemples de sortie construits sur un corpus aligné :

(1) Alignement avec présence du motif (annotation n°1 : forme),

(2) Alignement avec présence du motif (annotation n°2 : lemme),

(3) Alignement avec absence du motif (annotation n°1 : forme),

(4) Alignement complet (annotation n°1 : forme).

30.3.3.4 Graphe des relations de dépendances sur une section multi-volets

Cette fois-ci, on considère que la base parTUT est chargée dans le Trameur. Cette base intègre un alignement de treebanks (cf présentation en ligne de cette ressource) : un volet EN et un volet FR. On édite conjointement une section et son miroir :

Figure 302 : Graphe de relations de dépendances dans une section multi-volets (1)

Le bouton « Affichage des relations de dépendance dans la section » (cerclé de rouge ci-dessus) permet de mettre au jour le graphe de relations sur les 2 zones textuelles alignées ici :

Figure 303 : Graphe de relations de dépendances dans une section multi-volets (2)

Figure 304 : Graphe de relations de dépendances dans une section multi-volets (3)

30.3 Annotation de données orales

Projet associé : CFPP2000 http://cfpp2000.univ-paris3.fr/index.html

Un moteur de recherche[26] permet de lancer des requêtes dans les transcriptions de CFPP2000 annotées via treetagger (similaire à celui déjà en place sur le texte brut des transcriptions[27]). Les données ont été annotées en utilisant les ressources développées pour le traitement de l’oral via treetagger par Christophe Benzitoun (ATILF) et intégrées dans le Trameur.

Après chargement et annotation d'un fichier dans le Trameur, on peut exporter la "base annotée" résultante dans un format XML « proche » du format de départ (accessible via le bouton ) : la base résultante est de fait le fichier de départ sur lequel on a projeté des annotations construites par treetagger.

Pour le moment les balises auto-fermantes ne sont pas gérées dans le Trameur, elles ne sont dans pas conservées dans cet export. Ce type de balise est utilisé dans les textes de transcriptions construits par Transcriber par exemple (outil utilisé pour la transcription dans le corpus CFPP2000) pour noter des commentaires, distinguer les locuteurs quand plusieurs sont associés à un seul tour de paroles etc. Les figures suivantes permettent de visualiser la perte d'information induite : si on cherche la forme "fonctionnaire" dans les transcriptions brutes puis dans les transcriptions annotées on obtient les 2 résultats suivants :

Recherche sur texte brut :

Figure 305 : CFPP2000 (1)

Recherche sur texte annoté : (on perd la distinction spk2/spk3)

Figure 306 : CFPP2000 (2)

Dans le cas de CFPP2000, le processus (d’annotation puis d’export) intégré dans le Trameur permet d'annoter facilement des fichiers de transcription issus de Transcriber par exemple et de récupérer ensuite les mêmes fichiers avec annotations morphosyntaxiques (pour le moment, il reste à faire quelques modifications mineures sur le fichier exporté). On peut donc très facilement et à moindre coût réitérer l'étiquetage et produire un nouveau fichier annoté que l'on peut ensuite intégrer dans le moteur de recherche dans les données annotées de CFPP2000.

Les éventuelles corrections sur les annotations produites par treetagger peuvent se faire dans le Trameur (cf processus de correction des annotations présentés dans ce document) ou de manière externe (via un éditeur XML par exemple).

30.4 Module petiMoteur

Le module petiMoteur est disponible dans l’onglet CADRE. Ce module permet de réaliser un corpus à partir d’une liste d’URLs (ici une liste de 60 urls pointant vers des pages d’accueil de journaux français en ligne). Une fois le fichier d’URLs chargé (1), le module d’aspiration (2) construit un fichier concaténant les contenus textuels des différentes URLs. Le fichier produit (text_URLS.txt dans le même dossier que le fichier des URLs) peut ensuite être chargé dans le Trameur.

Figure 307 : Le petiMoteur

30.5 MOTIFS : repérage et sélection de motifs multi-annotés

Définitions

Le motif se présente comme une nouvelle unité textuelle récurrente (A B C, par exemple) composé d’unités A, B, C, se situant à différents niveaux (formes graphiques, lemmes, catégories grammaticales, patrons syntaxiques et, éventuellement, schèmes métriques ou prosodiques). La première particularité du motif, en comparaison avec le segment répété ou la cooccurrence, est sa multidimentionnalité : « la notion de motif est conçue comme un moyen de conceptualiser la multidimensionnalité (ou le caractère multi-niveau) de certaines formes récurrentes qui sollicitent à la fois le lexique, les catégories grammaticales et la syntaxe, éventuellement la prosodie, la métrique. » (Longrée et Mellet 2013 : 66)

Mise en œuvre dans le Trameur

Pour illustrer la fonctionnalité mise en œuvre dans le Trameur, on travaille ci-dessous avec le corpus suivant :

Le corpus Voeux réunit l’ensemble des allocutions du 31 décembre (vœux aux Français) des présidents de la Cinquième République, de 1959 à 2015. Il contient 58 257 occurrences pour 6 426 formes. Ce corpus est accessible en ligne sur les pages suivantes : (https://sourceforge.net/projects/txm/files/corpora/voeux/ et www.textopol.u-pec.fr [sur demande])

Ce corpus est chargé dans le Trameur avec étiquetage via TreeTagger. Sur ce corpus, nous allons mettre au jour les séquences textuelles correspondant au motif suivant :

<2:nous> <1:avons;3:VER> <3:.*>{1,20} <2:espérer|espoir|confiance|raison|raisons>

Chaque item du motif est décrit dans une séquence du type <description-item>

La description d’un item contient des informations à vérifier sur une ou plusieurs couches d’annotation pour l’item visé; par exemple sur le second terme du motif on a : <1:avons;3:VER>, ce terme doit permettre de rechercher un VERbe dont la forme graphique est « avons » (l’ordre des annotations dans la description d’un item n’a aucune importance).

Le motif précédent décrit donc une séquence textuelle :

· commençant par un item dont l’annotation n°2 (lemme) est nous (en gros le pronom personnel nous (minuscule ou majuscule si les lemmes sont tous codés en minuscule)

· suivi d’un item dont l’annotation n°1 (forme) est avons et dont l’annotation n°2 est VER ; plus précisément, un item dont l’annotation n°1 contient la chaîne de caractère avons (par exemple, avons ou savons…) et dont l’annotation n°2 contient la chaîne de caractère VER

· suivie de 1 à 20 occurrences d’items de valeur quelconque (via la regexp .*) pour l’annotation n°3

· et se terminant par des items dont l’annotation n°2 (lemme) coïncident avec la regexp donnée i.e les unités suivantes : espérer ou espoir, ou confiance ou raison(s)

Ecriture des motifs dans un fichier

Tous les motifs doivent être écrits au préalable dans un fichier au format texte brut. La figure suivante donne un voir un tel fichier ouvert via Notepad++ :

Figure 308 : Fichier de MOTIFS

Un fichier similaire est fourni dans la distribution standard du logiciel. Ce fichier a l’allure suivante :

POLE # MOTIF

Le POLE est suivi d’une tabulation, puis le caractère #, puis de nouveau une tabulation et le MOTIF. On trouve par exemple dans le fichier précédent la ligne suivante :

<3:DET_ART> # <3:DET_ART> <3:ADJ>{0,2} <3:NOM> <3:VER>

Elle contient la description du pôle (avant le #) puis celle du motif (après le #).

Le POLE correspond au premier terme du MOTIF:

3:DET_ART

ici un item dans l’annotation n°3 (catégorie) est DET_ART.

On a ensuite la description du MOTIF associé au pôle précédent :

<3:DET_ART> <3:ADJ>{0,2} <3:NOM> <3:VER>

Chaque item du motif est décrit dans une séquence du type <description-item> ; la description d’un item contient des informations à vérifier sur une ou plusieurs couches d’annotation pour l’item visé ; dans l’exemple précédent, seule une couche d’annotation est spécifiée pour chaque item du motif. Le motif testé infra en utilisera plusieurs.

Le motif commence ici par le pôle précédent (<3:DET_ART>), il est suivi de 0 à 2 occurrences d’item(s) dont l’annotation n°3 (catégorie) est ADJ (<3:ADJ>{0,2}), puis d’un item dont l’annotation n°3 (catégorie) est NOM (<3:NOM>) et il se termine par un item dont l’annotation n°3 (catégorie) est VER (<3:VER>).

Actuellement, dans la description du motif, seul le premier terme du motif doit être défini précisément (dans sa valeur). Pour les autres termes du motif, il est possible d’utiliser une expression régulière (cf exemple initial).

Les termes du motif (sauf le premier et le dernier) peuvent être accompagnés d’un marquage de répétition (avec une valeur mini (0 compris) et une valeur maxi).

Chargement du fichier contenant les motifs

Une fois les motifs définis dans le fichier dédié, ce dernier peut être chargé dans le Trameur :

Figure 309 : Fonctionnalités sur les MOTIFS

Remarque : le fichier peut être modifié puis rechargé pour éventuellement prendre en compte de nouveaux motifs. Le motif sélectionné est celui explicité supra :

<2:nous> <1:avons;3:VER> <3:.*>{1,20} <2:espérer|espoir|confiance|raison|raisons>

Rappel : dans ce motif, le second terme intègre une requête sur 2 couches d’annotations pour les items visés :

à on cherche (1) le lemme « nous » suivi par (2) un item qui doit être un verbe ayant pour forme graphique « avons » etc.

Les différentes contraintes posées sur un item peuvent s’enchaîner les unes derrière les autres et séparées par un point-virgule et dans un ordre quelconque :

<i:pattern_sur_i;j:pattern_sur_j;k:pattern_sur_k;…>

1. Affichage des occurrences d’un motif

Le bouton « Affichage » permet d’afficher la séquence textuelle (les formes graphiques) des occurrences du motif :

Figure 310 : Les occurrences d’un MOTIF

Ces occurrences peuvent être affichées en contexte via une concordance : utile pour explorer les différentes annotations de chaque item de la séquence mise au jour.

Elles peuvent aussi être ajoutées au Gestionnaire de Sélection (sélection de la séquence visée puis activation du bouton « Sélection »).

2. Sélection d'un motif à "mettre au jour" (in fine les occurrences du motif sont ajoutées au gestionnaire de sélection)

Le bouton « Ajout Gestionnaire » déclenche directement la recherche des occurrences des motifs sélectionnés et leur insertion dans le Gestionnaire de Sélection (sans passer par leur affichage comme précédemment)

Figure 311 : Sélection d’un MOTIF

Affichage du résultat dans le Gestionnaire de Sélection

Une fois les occurrences du motif visé éventuellement ajoutées au Gestionnaire de Sélection, il est possible de leur appliquer les traitements disponibles.

Figure 312 : Traitements sur MOTIF

La quatrième colonne donne à voir les séquences textuelles associées au motif (via leur annotation n°1 (forme)) :

REMARQUE : la recherche de motif "traverse" les délimiteurs....

Visualisation en contexte du "motif"

Les items ainsi mis au jour (et les séquences associées : les occurrences du MOTIF) sont ensuite exploitables via les opérations disponibles dans le logiciel. On peut visualiser ces séquences en contexte, via une concordance ou dans une section de la Carte des Sections ou encore dans un graphique de ventilation (cf. présentation du Gestionnaire de Sélection).

31 Le Trameur en mode console

Le Trameur en mode console s’utilise dans une fenêtre de commandes :

Figure 313 : Le Trameur en mode console

Le seul objectif de ce programme est de construire le Cadre et la Trame d’un fichier.

Nous allons montrer sur le même fichier de travail les différents fichiers produits suivant les options définies et visibles dans la figure précédente.

31.1 Fichier de travail :

<STRUCTURE="TITRE"> Le dormeur du val

<STRUCTURE="TEXTEPOEME">

<LIGNE="VERS1"> C' est un trou de verdure où chante une rivière,

<LIGNE="VERS2"> Accrochant follement aux herbes des haillons

<LIGNE="VERS3"> D' argent ; où le soleil ; de la montagne fière,

<LIGNE="VERS4"> Luit : c' est un petit val qui mousse de rayons.

31.2 Le Cadre :

<?xml version="1.0" encoding="iso8859-1"?>

<Cadre>

<title>Modelisation XML de la base Lexico (le metier = le Cadre et la Trame), importable et echangeable avec d'autres plateformes</title>

</titleStmt>

Samedi 26 Mai 2007

10:17:17. Ce document n'est pas encore publie.

</publicationStmt>

Fichier genere par Le Trameur 5.0 (http://www.tal.univ-paris3.fr/trameur).

Fichier traite : dormeurL3.txt

Encodage : iso8859-1

Delimiteur : \.\,\ \:\;\!\?\/\_\-\"\'\[\]\{\}\§\$\|\&gt;\&lt;\=\+

Etiquetage Treetagger :NON

Fichiers construits :

La Trame :

.\dormeurL3-Trame.xml

Le Cadre :

.\dormeurL3-Cadre.xml

</sourceDesc>

</fileDesc>

</teiheader>

<acces>

</partition>

</partition>

</acces>

Rectangle à coins arrondis: Cadre </Cadre>

31.3 La Trame :

<?xml version="1.0" encoding="iso8859-1"?>

<Trame>

<title>Modelisation XML de la base Lexico (le metier = le Cadre et la Trame), importable et echangeable avec d'autres plateformes</title>

</titleStmt>

Samedi 26 Mai 2007

10:17:17. Ce document n'est pas encore publie.

</publicationStmt>

Fichier genere par Le Trameur 5.0 (http://www.tal.univ-paris3.fr/trameur).

Fichier traite : dormeurL3.txt

Encodage : iso8859-1

Delimiteur : \.\,\ \:\;\!\?\/\_\-\"\'\[\]\{\}\§\$\|\&gt;\&lt;\=\+

Etiquetage Treetagger :NON

Fichiers construits :

La Trame :

.\dormeurL3-Trame.xml

Le Cadre :

.\dormeurL3-Cadre.xml

</sourceDesc>

</fileDesc>

</teiheader>

<items>

<item type="forme" pos="4">dormeur</item>

</item>

<item type="forme" pos="23">verdure</item>

<item type="forme" pos="27">chante</item>

<item type="forme" pos="31">rivière</item>

Rectangle à coins arrondis: Trame <item type="forme" pos="34">

</item>

<item type="forme" pos="36">Accrochant</item>

<item type="forme" pos="38">follement</item>

<item type="forme" pos="42">herbes</item>

<item type="forme" pos="46">haillons</item>

</item>

<item type="forme" pos="53">argent</item>

<item type="forme" pos="61">soleil</item>

<item type="forme" pos="69">montagne</item>

<item type="forme" pos="71">fière</item>

</item>

<item type="forme" pos="87">petit</item>

<item type="forme" pos="93">mousse</item>

<item type="forme" pos="97">rayons</item>

</items>

</Trame>

31.4 La Trame « annotée » (si treetagger est invoqué)

<?xml version="1.0" encoding="iso8859-1"?>

<treetagger>

<title>Modelisation XML de la base Lexico (le metier = le Cadre et la Trame), importable et echangeable avec d'autres plateformes</title>

</titleStmt>

Samedi 26 Mai 2007

10:20:34. Ce document n'est pas encore publie.

</publicationStmt>

Fichier genere par Le Trameur 5.0 (http://www.tal.univ-paris3.fr/trameur).

Fichier traite : dormeurL3.txt

Encodage : iso8859-1

Delimiteur : \.\,\ \:\;\!\?\/\_\-\"\'\[\]\{\}\§\$\|\&gt;\&lt;\=\+

Etiquetage Treetagger :OUI

Fichiers construits :

Rectangle à coins arrondis: Trame La Trame :

.\dormeurL3-Trame.xml

Le Cadre :

.\dormeurL3-Cadre.xml

Le fichier a treetagger :

.\dormeurL3-2-treetagger.txt

Le fichier issu de treetagger :

.\dormeurL3-etiquette.txt

Le fichier issu de treetagger reconstruisant la Trame initiale :

.\dormeurL3-Trame-treetager.xml

</sourceDesc>

</fileDesc>

</teiheader>

<items>

<item type="delim" pos="1»><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="3»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="forme" pos="4"><f>dormeur</f><c>NOM</c><l>dormeur</l></item>

<item type="delim" pos="5»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="7»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="9»><f> </f><c>DELIM</c>l>BLANK</l></item>

</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="11»><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="13"><f>'</f><c>DELIM</c><l>'</l></item>

<item type="delim" pos="14»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="16»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="18»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="20»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="22»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="forme" pos="23"><f>verdure</f><c>NOM</c><l>verdure</l></item>

<item type="delim" pos="24»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="26»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="forme" pos="27"><f>chante</f><c>VER_pres</c><l>chanter</l></item>

<item type="delim" pos="28»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="30»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="forme" pos="31"><f>rivière</f><c>NOM</c><l>rivière</l></item>

<item type="delim" pos="32"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="33»><f> </f><c>DELIM</c>l>BLANK</l></item>

</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="35»><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="36"><f>Accrochant</f><c>ABR</c><l>Accrochant</l></item>

<item type="delim" pos="37»><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="38"><f>follement</f><c>ADV</c><l>follement</l></item>

<item type="delim" pos="39»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="41»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="forme" pos="42"><f>herbes</f><c>NOM</c><l>herbe</l></item>

<item type="delim" pos="43»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="45»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="forme" pos="46"><f>haillons</f><c>NOM</c><l>haillon</l></item>

<item type="delim" pos="47»><f> </f><c>DELIM</c>l>BLANK</l></item>

</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="49»><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="delim" pos="51"><f>'</f><c>DELIM</c><l>'</l></item>

<item type="delim" pos="52»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="forme" pos="53"><f>argent</f><c>NOM</c><l>argent</l></item>

<item type="delim" pos="54»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="55"><f>;</f><c>DELIM</c><l>;</l></item>

<item type="delim" pos="56»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="58»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="60»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="forme" pos="61"><f>soleil</f><c>NOM</c><l>soleil</l></item>

<item type="delim" pos="62»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="63"><f>;</f><c>DELIM</c><l>;</l></item>

<item type="delim" pos="64»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="66»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="68»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="forme" pos="69"><f>montagne</f><c>NOM</c><l>montagne</l></item>

<item type="delim" pos="70»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="forme" pos="71"><f>fière</f><c>ADJ</c><l>fier</l></item>

<item type="delim" pos="72"><f>,</f><c>DELIM</c><l>,</l></item>

<item type="delim" pos="73»><f> </f><c>DELIM</c>l>BLANK</l></item>

</f><c>DELIM</c><l>RETURN</l></item>

<item type="delim" pos="75»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="forme" pos="76"><f>Luit</f><c>VER_pres</c><l>luire</l></item>

<item type="delim" pos="77»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="78"><f>:</f><c>DELIM</c><l>:</l></item>

<item type="delim" pos="79»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="81"><f>'</f><c>DELIM</c><l>'</l></item>

<item type="delim" pos="82»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="84»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="86»><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="87"><f>petit</f><c>ADJ</c><l>petit</l></item>

<item type="delim" pos="88»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="90»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="92»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="forme" pos="93"><f>mousse</f><c>NOM</c><l>mousse</l></item>

<item type="delim" pos="94»><f> </f><c>DELIM</c>l>BLANK</l></item>

<item type="delim" pos="96"><f> </f><c>DELIM</c><l>BLANK</l></item>

<item type="forme" pos="97"><f>rayons</f><c>NOM</c><l>rayon</l></item>

<item type="delim" pos="98"><f>.</f><c>DELIM</c><l>.</l></item>

<item type="delim" pos="99»><f> </f><c>DELIM</c><l>BLANK</l></item>

</items>

</treetagger>

32 Bibliographie

[Daoust, 2006], Daoust F., «Logiciels d'analyse textuelle : vers un format XML-TEI pour l'échange de corpus annotés» in Actes des 8èmes Journées d’analyse statistique des données textuelles, Besançon, 2006. (Disponible en ligne)

[Fleury, Zimina, 2014], Fleury S. and Zimina M. Trameur: A Framework for Annotated Text Corpora Exploration, Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: System Demonstrations, August 2014, Dublin, Ireland, pages 57-61, (PDF)

[Fleury, 2013a], Fleury Serge. Approches textométriques des brouillons, (PDF), séminaire projet ANR ECRITURES, 14 janvier 2013.

[Fleury, 2013b], Fleury Serge. Le Trameur. Propositions de description et d’implémentation des objets textométriques, (PDF), (texte en cours).

[Habert & al., 1997], Habert B, Nazarenko A., Salem A. Linguistiques de corpus, Paris, Armand-Colin, 1997

[Habert, 2005], Habert B. Instruments et ressources électroniques pour le français, Paris, Ophrys, 2005

[Heiden, 2006], Heiden S. « Modèles de données et formats d’échange pour l’interopérabilité des outils de textométrie », in Actes des 8èmes Journées d’analyse statistique des données textuelles, Besançon, 2006. (Disponible en ligne)

[Lafon, 1984] Lafon Pierre. Dépouillements et statistiques en lexicométrie, Slatkine-Champion, Paris, 1984.

[Lamalle & al., 2006], Lamalle C., Fleury S., Salem A. « Vers une description formelle des traitements textométriques », in Actes des 8èmes Journées d’analyse statistique des données textuelles, Besançon, 2006. (Disponible en ligne)

[Lamalle, Salem, 2002], Lamalle C., Salem A. « Types généralisés et topographie textuelle dans l’analyse quantitative des corpus textuels », in Actes des 6èmes Journées d’analyse statistique des données textuelles, St Malo, Inria, 2002. (Disponible en ligne)

[Lebart, Salem, 1994] Lebart L., Salem A. Statistique textuelle, Paris, Dunod, 1994. (Disponible en ligne)

[Martinez, 2002] William Martinez, Zimina Maria. "Utilisation de la méthode des cooccurrences pour l'alignement des mots de textes bilingues", in Actes JADT’2002[28], Journées Internationales d'Analyse Statistiques des Données Textuelles, St Malo. (Disponible en ligne)

[Martinez, 2003] William Martinez. Contribution à une méthodologie de l’analyse des cooccurrences lexicales multiples dans les corpus textuels. Thèse de Doctorat en Sciences du Langage, Université de la Sorbonne nouvelle - Paris 3, sous la direction d’André Salem, Paris. (Disponible en ligne)

[Martinez, Leblanc, 2006] Martinez W., Leblanc J-M. "L'analyse contrastive des réseaux de cooccurrence Le monde dans les discours des présidents de la Cinquième République", in Actes JADT’2006, Journées Internationales d'Analyse Statistiques des Données Textuelles, Besançon. (Disponible en ligne)

[Pincemin, 2008], Pincemin Bénédicte (CNRS/ICAR). "Modélisation textométrique des textes", in Actes JADT 2008, Journées Internationales d'Analyse Statistiques des Données Textuelles, Lyon 2008. (Disponible en ligne)

[Salem, 1987], Salem André. Pratique des segments répétés, Publications de l'INaLF, collection "St.Cloud", Paris, Klincksieck, 1987.

[Söze-Duval, 2008], Keyser Söze-Duval. Pour une textométrie opérationnelle. (Disponible en ligne)

[Zimina, Fleury, 2015], Zimina Maria, Fleury Serge, "Perspectives de l’architecture Trame/Cadre pour les alignements multilingues". Nouvelles perspectives en sciences sociales : revue internationale de systémique complexe et d'études relationnelles, volume 11, numéro 1, novembre 2015. http://www.erudit.org/revue/npss/2015/v11/n1/index.html
[Résumé]

33 Glossaire

Sources utilisées pour constituer pour ce glossaire : LEBART Ludovic, SALEM André, Statistique textuelle, Paris, Dunod, 1994

Ce glossaire est aussi disponible en ligne :

http://tal.univ-paris3.fr/wakka/wakka.php?wiki=Glossaire

Abréviations :

ac Analyse factorielle des correspondances

acm Analyse des correspondances multiples

cla Classification

sp Méthode des Spécificités

sr Analyse des segments répétés

ling Linguistique

stat Statistique

sa Segmentation automatique

accroissement spécifique (sp)
spécificité calculée pour une partie d'un corpus par rapport à une partie antérieure

analyse factorielle (stat)
famille de méthodes statistiques d'analyse multidimensionnelle, s'appliquant à des tableaux de nombres, qui visent à extraire des "facteurs" résumant approximativement par quelques séries de nombres l'ensemble des informations contenues dans le tableau de départ.

analyse des correspondances (stat)
méthode d'analyse factorielle s'appliquant à l'étude de tableaux à double entrée composés de nombres positifs. L'AC est caractérisée par l'emploi d'une distance (ou métrique) particulière dite distance du chi-2 (ou c2).

caractère (sa)
signe typographique utilisé pour l'encodage du texte sur un support lisible par l'ordinateur.

caractères délimiteurs / non-délimiteurs (sa)
distinction opérée sur l'ensemble des caractères qui entrent dans la composition du texte, permettant aux procédures informatisées de segmenter le texte en occurrences (suite de caractères non-délimiteurs bornée à ses extrémités par des caractères délimiteurs).

On distingue parmi les caractères délimiteurs:

- les caractères délimiteurs d'occurrence (encore appelés "délimiteurs de forme") qui sont en général : le blanc, les signes de ponctuation usuels, les signes de préanalyse éventuellement contenus dans le texte.

- les caractères délimiteurs de séquences : sous-ensemble des délimiteurs d'occurrence correspondant, en général, aux ponctuations faibles et fortes contenues dans la police des caractères.

- les caractères séparateurs de phrase : (sous-ensemble des délimiteurs de séquence) qui correspondent, en général, aux seules ponctuations fortes.

classification (stat)
technique statistique permettant de regrouper des observations ou des individus entre lesquels a été définie une distance.

classification hiérarchique (cla)
technique particulière de classification produisant par agglomération progressive des classes ayant la propriété d'être, pour deux quelconques d'entre-elles, soit disjointes, soit incluses.

concordance (sa)
l'ensemble de lignes de contexte se rapportant à une même forme-pôle.

contribution absolue (ou contribution) (ac)
contribution apportée par un élément au facteur. Pour un facteur donné, la somme des contributions sur les éléments de chacun des ensembles mis en correspondance est égale à 100.

contribution relative (ou cosinus carré) (ac)
contribution apportée par le facteur à un élément. Pour un élément donné, la somme des contributions relatives sur l'ensemble des facteurs est égale à 1.

cooccurrence (sa) - (une c. )
présence simultanée, mais non forcément contiguë, dans un fragment de texte (séquence, phrase, paragraphe, voisinage d'une occurrence, partie du corpus etc.) des occurrences de deux formes données.

corpus (ling)
ensemble limité des éléments (énoncés) sur lesquels se base l'étude d'un phénomène linguistique.
(lexicométrie) ensemble de textes réunis à des fins de comparaison; servant de base à une étude quantitative.

délimiteurs de séquence (sa)
sous-ensemble des caractères délimiteurs de forme correspondant aux ponctuations faibles et fortes (en général - le point, le point d'interrogation, le point d'exclamation, la virgule, le point-virgule, les deux points, les guillemets, les tirets et les parenthèses).

dendrogramme (cla)
représentation graphique d'un arbre de classification hiérarchique, mettant en évidence l'inclusion progressive des classes.

discours/langue
La langue est un ensemble virtuel qui ne peut être appréhendé que dans son actualisation orale ou écrite; "discours" est un terme commode qui recouvre les deux domaines de cette actualisation.

distance du chi-2
distance entre profils de fréquence utilisée en analyse des correspondances et dans certains algorithmes de classification.

éditions de contextes (sa)
éditions de type concordanciel dans lesquelles les occurrences d'une forme sont accompagnées d'un fragment de contexte pouvant contenir plusieurs lignes de texte autour de la forme-pôle. La longueur de ce contexte est définie en nombre d'occurrences avant et après chaque occurrence de la forme-pôle.

éléments d'un segment (sr)
chacune des formes correspondant aux occurrences qui entrent dans sa composition. ex : A, B, C sont respectivement les premier, deuxième et troisième éléments du segment ABC.

éléments actifs (ac ou acm)
ensemble des éléments servant de base au calcul des axes factoriels, des valeurs propres relatives à ces axes et des coordonnées factorielles.

éléments supplémentaires (ou illustratifs) (ac ou acm)
ensemble des éléments ne participant pas aux calculs des axes factoriels, pour lesquels on calcule des coordonnées factorielles qui auraient été affectées à une forme ayant la même répartition dans le corpus mais participant à l'analyse avec un poids négligeable.

énoncé/énonciation (ling)
à l'intérieur du texte un ensemble de traces qui manifestent l'acte par lequel un auteur a produit ce texte.

facteur (ac ou acm)
variables artificielles construites par les techniques d'analyse factorielle permettant de résumer (de décrire brièvement) les variables actives initiales.

forme (sa) ou forme graphique
archétype correspondant aux occurrences identiques dans un corpus de textes, c'est-à-dire aux occurrences composées strictement des mêmes caractères non-délimiteurs d'occurrence.

forme banale (sp)
pour une partie du corpus donnée, forme ne présentant aucune spécificité ( ni positive ni négative) dans cette partie .

forme caractéristique (d'une partie)
synonyme de spécificité positive

forme commune
forme attestée dans chacune des parties du corpus

forme originale (pour une partie du corpus)
forme trouvant toutes ses occurrences dans cette seule partie.

fréquence (sa) (d'une unité textuelle)
le nombre de ses occurrences dans le corpus.

fréquence d'un segment (sr) (ou d'une polyforme)
le nombre des occurrences de ce segment, dans l'ensemble du corpus.

fréquence maximale (sa)
fréquence de la forme la plus fréquente du corpus (en français, le plus souvent, la préposition "de").

fréquence relative (sa)
la fréquence d'une unité textuelle dans le corpus ou dans l'une de ses parties, rapportée à la taille du corpus (resp. de cette partie).

gamme des fréquences (sa)
suite notée Vk, des effectifs correspondant aux formes de fréquence k, lorsque k varie de 1 à la fréquence maximale.

hapax
gr. hapax (legomenon), "chose dite une seule fois".
(sa) forme dont la fréquence est égale à un dans le corpus (hapax du corpus) ou dans une de ses parties (hapax de la partie).

identification (stat, ling, sa)
reconnaissance d'un seul et même élément à travers ses multiples emplois dans des contextes et dans des situations différentes.

index (sa)
liste imprimée constituée à partir d'une réorganisation des formes et des occurrences d'un texte, ayant pour base la forme graphique et permettant de regrouper les références relatives à l'ensemble des occurrences d'une même forme.

index alphabétique (sa)
index dans lequel les formes-pôles* sont classées selon l' ordre lexicographique (celui des dictionnaires).

index hiérarchique (sa)
index dans lequel les formes-pôles sont classées selon l' ordre lexicométrique.

index par parties
ensemble d'index (hiérarchiques ou alphabétiques) réalisés séparément pour chaque partie d'un corpus.

lemmatisation
regroupement sous une forme canonique (en général à partir d'un dictionnaire) des occurrences du texte. En français, ce regroupement se pratique en général de la manière suivante :

les formes verbales à l'infinitif,
les substantifs au singulier,
les adjectifs au masculin singulier,
les formes élidées à la forme sans élision.

lexical (ling)
qui concerne le lexique ou le vocabulaire.

lexicométrie
ensemble de méthodes permettant d'opérer des réorganisations formelles de la séquence textuelle et des analyses statistiques portant sur le vocabulaire d'un corpus de textes.

lexique (ling)
ensemble virtuel des mots d'une langue.

longueur (sa) (d'un corpus, d'une partie de ce corpus, d'un fragment de texte, d'une tranche, d'un segment, etc.)
le nombre des occurrences contenues dans ce corpus (resp. : partie, fragment, etc.). Synonyme : taille.

On note: T la longueur du corpus; t j celle de la partie (ou tranche) numéro j du corpus.

longueur d'un segment (sr)
le nombre des occurrences entrant dans la composition de ce segment.

occurrence (sa)
suite de caractères non-délimiteurs bornée à ses extrémités par deux caractères délimiteurs de forme.

ordre lexicographique

pour les formes graphiques :

l'ordre selon lequel les formes sont classées dans un dictionnaire.
NB : Les lettres comportant des signes diacrisés sont classées au même niveau que les mêmes caractères non diacrisés, le signe diacritique n'intervenant que dans les cas d'homographie complète. Dans les dictionnaires, on trouve par exemple rangées dans cet ordre les formes : mais, maïs, maison, maître .

pour les polyformes:

ordre résultant d'un tri des polyformes par ordre lexicographique sur la première composante. Les polyformes commençant par une même forme graphique sont départagées par un tri lexicographique sur la seconde, etc.

ordre lexicométrique (sa)

pour les formes graphiques :

ordre résultant d'un tri des formes du corpus par ordre de fréquences décroissantes ; les formes de même fréquence sont classées par ordre lexicographique.

pour les polyformes:

ordre résultant d'un tri par ordre de longueur décroissante des segments, les segments de même longueur sont départagés par leur fréquence, les segments ayant même longueur et même fréquence par l'ordre lexicographique.

paradigme (ling)
ensemble des termes qui peuvent figurer en un point de la chaîne parlée.

paradigmatique (sa)
qui concerne le regroupement en série des unités textuelles, indépendamment de leur ordre de succession dans la chaîne écrite.

partie
(d'un corpus de textes) fragment de texte correspondant aux divisions naturelles de ce corpus ou à un regroupement de ces dernières.

partition

d'un corpus de textes :

division d'un corpus en parties constituées par des fragments de texte consécutifs, n'ayant pas d'intersection commune et dont la réunion est égale au corpus.

d'un ensemble, d'un échantillon :

division d'un ensemble d'individus ou d'observations en classes disjointes dont la réunion est égale à l'ensemble tout entier.

partition longitudinale (sa)
partition d'un corpus en fonction d'une variable qui définit un ordre sur l'ensemble des parties

périodisation (sa)
regroupement des parties naturelles du corpus respectant l'ordre chronologique d'écriture, d'édition ou de parution des textes réunis dans le corpus.

phrase - (sa) fragment de texte compris entre deux séparateurs de phrase.

polyforme (sr)
archétype des occurrences d'un segment; suite de formes non séparées par un séparateur de séquence, qui n'est pas obligatoirement attestée dans le corpus.

ponctuation
Système de signes servant à indiquer les divisions d'un texte et à noter certains rapports syntaxiques et/ou conditions d'énonciation.
(sa) caractère (ou suite de caractères) correspondant à un signe de ponctuation.

pourcentages d'inertie (ac ou acm)
quantités proportionnelles aux valeurs propres dont la somme est égale à 100. Notées ta.

profil (stat et ac) (d'une ligne ou d'une colonne d'un tableau à double entrée)
vecteur constitué par le rapport des effectifs contenus sur cette ligne (resp. colonne) à la somme des effectifs que contient la ligne (resp. la colonne).

répartition (sa) (des occurrences d'une forme dans les parties du corpus)
nombre des parties du corpus dans lesquelles cette forme est attestée.

section (sr)
portion de texte comprise entre deux délimiteurs de section (exemple : le paragraphe, etc.).

segment (sr)
toute suite d'occurrences consécutives dans le corpus et non séparées par un séparateur de séquence est un segment du texte.

segment répété (sr) (ou polyforme répétée)
suite de forme dont la fréquence est supérieure ou égale à 2 dans le corpus.

segmentaire (sr)
ensemble des termes* attestés dans le corpus.

segmentation
opération qui consiste à délimiter des unités minimales dans un texte.

segmentation automatique
ensemble d'opérations réalisées au moyen de procédures informatisées qui aboutissent à découper, selon des règles prédéfinies, un texte stocké sur un support lisible par un ordinateur en unités distinctes que l'on appelle des unités minimales.

séparateurs de phrases (sa)
sous-ensemble des caractères délimiteurs de séquence* correspondant aux seules ponctuations fortes (en général : le point, le point d'interrogation, le point d'exclamation).

séquence (sa)
suite d'occurrences du texte non séparées par un délimiteur* de séquence.

seuil (stat)
quantité arbitrairement fixée au début d'une expérience visant à sélectionner parmi un grand nombre de résultats, ceux pour lesquels les valeurs d'un indice numérique dépassent ce seuil (de fréquence, en probabilité, etc.).

sous-fréquence (sa) (d'une unité textuelle dans une partie, tranche, etc.)
nombre des occurrences de cette unité dans la seule partie (resp. tranche, etc.) du corpus.

sous-segments (sr)
pour un segment donné, tous les segments de longueur inférieure et compris dans ce segment sont des sous-segments. ex : AB et BC sont deux sous-segments du segment ABC.

spécificité chronologique (sp)
spécificité* portant sur un groupe connexe de parties d'un corpus muni d'une partition longitudinale.

spécificité positive (sp)
pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique positive de la partie j (ou forme caractéristique de cette partie) si sa sous-fréquence est "anormalement élevée" dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou supérieures à la sous-fréquence constatée est inférieure au seuil fixé au départ.

spécificité négative (sp)
pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique négative de la partie j si sa sous-fréquence est anormalement faible dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou inférieures à la sous-fréquence constatée est inférieure au seuil fixé au départ.

stock distributionnel du vocabulaire (d'un fragment de texte)
le vocabulaire* de ce fragment assorti de comptages de fréquence pour chacune des formes entrant dans sa composition.

syntagmatique (sa)
qui concerne le regroupement des unités textuelles, selon leur ordre de succession dans la chaîne écrite.

syntagme (ling)
groupe de mots en séquence formant une unité à l'intérieur de la phrase.

tableau de contingence (stat)
synonyme de tableau de fréquences ou de tableau croisé: tableau dont les lignes et les colonnes représentent respectivement les modalités de deux questions (ou deux variables nominales) , et dont le terme général représente le nombre d'individus correspondant à chaque couple de modalités.

tableau lexical entier (TLE)
tableau à double entrée dont les lignes sont constituées par les ventilations des différentes formes dans les parties du corpus. Le terme générique k(i,j) du TLE est égal au nombre de fois que la forme i est attestée dans la partie j du corpus. Les lignes du TLE sont triées selon l' ordre lexicométrique des formes correspondantes.

tableau des segments répétés (TSR)
tableau à double entrée dont les lignes sont constituées par les ventilations des segments répétés dans les parties du corpus. Les lignes du TSR sont triées selon l'ordre lexicométrique* des segments. (i.e. longueur décroissante, fréquence décroissante, ordre lexicographique).

tableau lexical
tableau à double entrée résultant du TLE par suppression de certaines lignes (par exemple celles qui correspondent à des formes dont la fréquence est inférieure à un seuil donné).

taille (sa) (d'un corpus)
sa longueur* mesurée en occurrences (de formes simples).

terme (sr)
nom générique s'appliquant à la fois aux formes et aux polyformes. Dans le premier cas on parlera de termes de longueur 1. Les polyformes sont des termes de longueur 2,3, etc.

termes contraints / termes libres
un terme S1 est contraint dans un autre terme S2 de longueur supérieure si toutes ses occurrences sont des sous-segments de segments correspondant à des occurrences du segment S2. Si au contraire un terme possède plusieurs expansions distinctes, qui ne sont pas forcément récurrentes, c'est un terme libre.

types généralisés (Tgens)
unités de dépouillement définies par l'utilisateur à l'aide d'outils permettant d'effectuer automatiquement des regroupements d'occurrences du texte (ex : les occurrences des formes qui commencent par la séquence de caractère patr : patrie, patriotes, patriotisme, etc.).

unités minimales (pour un type de segmentation)
unités que l’on ne décompose pas en unités plus petites pouvant entrer dans leur composition (ex : dans la segmentation en formes graphiques les formes ne sont pas décomposées en fonction des caractères qui les composent)

valeur modale (stat)
valeur pour laquelle une distribution atteint son maximum.

valeurs propres (ac ou acm)
quantités permettant de juger de l'importance des facteurs successifs de la décomposition factorielle. La valeur propre notée la. mesure la dispersion des éléments sur l' axe.a.

valeurs-tests (ac ou acm)
quantités permettant d'apprécier la signification de la position d'un élément supplémentaire (ou illustratif) sur une axe factoriel. Brièvement, si une valeur test dépasse 2 en valeur absolue, il y a 95 chances sur 100 que la position de l'élément correspondant ne puisse être due au hasard.

variables actives
variables utilisées pour dresser une typologie, soit par analyse factorielle, soit par classification. Les typologies dépendent du choix et des poids des variables actives, qui doivent de ce fait constituer un ensemble homogène.

variables supplémentaires (ou illustratives)
variables utilisées a posteriori pour illustrer des plans factoriels ou des classes. Une variable supplémentaire peut-être considérée comme une variable active munie d'un poids nul.

variables de type T
variable dont la fréquence est à peu près proportionnelle à l'allongement du texte. (ex : la fréquence maximale)

variables de type V
variable dont l'accroissement a tendance à diminuer avec l'allongement du texte (ex : le nombre des formes, le nombre des hapax).

ventilation (sa) (des occurrences d'une unité dans les parties du corpus)
La suite des n nombres (n = nombre de parties du corpus) constituée par la succession des sous-fréquences* de cette unité dans chacune des parties, prises dans l'ordre des parties.

vocabulaire (sa)
ensemble des formes attestées dans un corpus de textes.

vocabulaire commun (sa)
l'ensemble des formes attestées dans chacune des parties du corpus.

vocabulaire de base (sp)
ensemble des formes du corpus ne présentant, pour un seuil fixé, aucune spécificité (négative ou positive) dans aucune des parties , (i.e. l'ensemble des formes qui sont "banales" pour chacune des parties du corpus).

vocabulaire original (sp) (pour une partie du corpus)
l'ensemble des formes originales pour cette partie.

voisinage d'une occurrence (sa)

pour une occurrence donnée du texte, tout segment (suite d'occurrences consécutives, non séparées par un délimiteur de séquence) contenant cette occurrence.

http://www.tal.univ-paris3.fr/trameur/

[2] Un dossier de même nom sera créé dans le dossier contenant la base en cours de traitement. Des fichiers d’export y seront stockés (idem pour les dossiers graph, logR, rapport : ces dossiers stockeront des données générées au cours de l’analyse de la base)

[3] Le tableau ci-dessous intègre une grande partie des boutons disponibles dans l’interface du logiciel.

[7] Cf Partie « Vocabulaire spécificique » pour le paramétrage de ce calcul

[10] Cf Partie « Vocabulaire spécificique » pour le paramétrage de ce calcul

[12] Cf Partie « Vocabulaire spécificique » pour le paramétrage de ce calcul

[13] Sur la méthode des spécificités on consultera par exemple : (Lafon, 1984) ou en ligne : http://weblex.ens-lsh.fr/doc/weblex/contraste.html#specif

[14] Rappel : par défaut, les numéros d’annotation 1, 2 et 3 sont associés respectivement aux formes, aux lemmes et aux catégories (que treetagger soit activé ou non).

[19] Chaque dossier est initialement constitué d’un ensemble chronologique de textes allant du brouillon initial à la version finale, on ne retient ici que ce dernier état.

[21] Si treetagger a préalablement été activé

[22] Si treetagger a préalablement été activé

[25] http://www.tal.univ-paris3.fr/mkAlign/#p7b