Dans une perspective lexicométrique / textométrique, représentation du texte sous la forme d'une Trame et d'un Cadre i.e le métier Textométrique .
L'objectif principal de la textométrie (cf "Qu'est-ce que la textométrie ?") est de compter des éléments (des contenus textuels) dans des ensembles (des contenants regroupant des unités élémentaires d'un texte ou des zones de texte couvrant un certain nombre ou un certain type d'unités élémentaires).
Les contenus se réalisent sous la forme de ressources textuelles (une séquence de caractères organisée en phrases, en paragraphes etc.).
Les contenants existent sous la forme de système de masques ou de calques que l'on peut définir sur les contenus. Il s'agit de systèmes d'annotations que l'on peut définir sur tout ou partie des zones textuelles, ces annotations constituant en retour des accès sur les parties textuelles qu'elles définissent (le marquage des phrases ou des paragraphes étant un exemple d'annotation particulier pour décrire un certain niveau de la structure du texte).
Le processus de comptage nécessite au préalable d'identifier les contenus et les contenants. Ce préalable consiste à expliciter une segmentation du texte conduisant à la mise au jour d'une trame sur laquelle des annotations pourront se greffer ultérieurement.
A partir d'un texte segmenté, la numérotation des items découpés dans le texte de départ permet de constituer un système de coordonnées sur le texte dans lequel chaque item est repéré par son numéro d'ordre. Nous appelons ce système de coordonnées sur la séquence textuelle : la Trame textométrique. Ce même système de coordonnées permet de définir et de localiser, au sein du corpus, des zones textuelles (zones formées par une suite d'items consécutifs, entre la position x1 la position x2, réunion d'un certain nombre de zones de ce type, etc.).
La définition d'une trame textométrique sur un corpus de textes permet de décrire les systèmes de zones qui correspondent aux contenants de l'analyse textométrique (parties, paragraphes, phrases, sections, chapitres etc.). On peut rassembler les descriptions relatives aux systèmes de contenants dans une structure de données particulière le Cadre textométrique.Nous appelons trameur l'outil informatique qui permet de construire une ressource textométrique trame/cadre, à partir d'une ensemble de textes rassemblés en corpus, selon les principes définis plus haut. La partie trame de la ressource textuelle produite par le trameur est constituée par la suite des items isolés lors de l'opération de segmentation. La partie cadre rassemble les données relatives aux différents découpages réalisés sur le corpus ainsi que les annotations déjà projetées sur les contenants ou les contenus constitués lors des étapes précédentes.
La transmission d'une ressource textuelle constituée sous la forme trame/cadre constitue une solution suffisante pour servir de base à toute exploration textométrique ultérieure.
([Söze-Duval, 2008], Keyser Söze-Duval. Pour une textométrie opérationnelle. (DOC))
Le Trameur : Programme de génération puis de gestion de la Trame et du Cadre d'un texte (le métier Textométrique) pour construire des opérations lexicométriques / textométriques. Le Trameur intègre le programme treetagger : système d'étiquetage automatique des catégories grammaticales des mots avec lemmatisation. Le Trameur est disponible en 2 versions : la " version Tk " et la " version console "
Documentation : format PDF, format HTML
Ci-dessous, la documentation disponible en ligne via issuu :
Exemples de Bases Textométriques produites avec Le Trameur et réimportables :
Trameur-tk, 9.0b078, (Version complète) sur demande à serge.fleury[at]univ-paris3.fr
Trameur-tk, 9.0b078, (Version "allégée") setup-trameur-9-l.exe
Comment installer la version complète à partir de la version dite "allégée" :
Récupérez le setup précédent, puis procédez à l'installation.
La version dite "complète" intègre aussi l'installation des 2 programmes externes treetagger et pajek
La version dite "allégée" ne dispose pas des 2 programmes utilisables par Le Trameur : treetagger et pajek. Pour disposer de ces 2 modules, il est possible de réaliser un "installation" complémentaire en procédant comme suit :
TREETAGGER :
- Récupérez la version de Treetagger 3.2 pour windows (-> dézippez l'archive et localisez le programme tree-tagger.exe)
- Récupérez les fichiers de langues utiles pour treetagger :
- English parameter file (gzip compressed, Latin1)
- German parameter file (gzip compressed, Latin1)
- French parameter file (Latin1) (gzip compressed, information about this file)
- French parameter file (utf-8)
- Italian parameter file (gzip compressed, Latin1, information about this file)
- Italian parameter file (gzip compressed, utf-8)
- Dutch parameter file (gzip compressed, Latin1)
- Spanish parameter file (gzip compressed, Latin1)
- Bulgarian parameter file (gzip compressed, UTF-8)
- Russian parameter file (Link)
- Placez le programme tree-tagger.exe dans le répertoire courant du Trameur
- Placez les fichiers de langue dans le sous-répertoire langues du répertoire courant du Trameur
PAJEK :
- Récupérez Pajek
- Installez Pajek sur votre poste de travail et localisez le programme PAJEK.exe (dans le lieu d'installation de Pajek)
- Placez le programme PAJEK.exe dans le sous-répertoire Pajek du répertoire courant du Trameur
Trameur-console, 7.00, sur demande à serge.fleury[at]univ-paris3.fr
Générateur d'un cadre et d'une trame (le métier) pour la construction de ressources lexicométriques incrémentales.
Le Trameur en mode console s'utilise dans une fenêtre de commandes :
Figure 1 : Le Trameur, version console.
Le seul objectif de ce programme est de construire le cadre et la trame d'un fichier.
Le Trameur-Tk : Programme de génération puis de gestion (dans une interface graphique) de la trame et du cadre d'un texte (le métier lexicométrique) pour des opérations lexicométriques.
Figure 2 : Chargement d'un texte : construction de la trame et du cadre.
Matérialisation du cadre.
Figure 3 : Chargement d'un texte : construction de la trame et du cadre.
Matérialisation d'une arborescence XML.
Figure 4 : Le cadre. Accès au texte par le cadre. Edition d'un item de la trame.
Figure 5 : Concordances.
Figure 6 : Concordances. Edition d'un item de la trame.
Figure 7 : Courbe de ventilation d'un item (formes).
Figure 8 : Courbe d'accroissement du vocabulaire.
Figure 9 : Carte des sections. Edition de la trame.
Figure 10 : Carte des sections. Recherche de coccurrents.
Figure 11 : (1) Recherche de patron et extraction de séquences de termes associées.
Figure 12 : (2) Recherche de patron : affichage des séquences
de termes associées et graphe de mots (sortie le Trameur).
Figure 13 : (2) Recherche de patron : affichage des séquences
de termes associées et graphe de mots (sortie Pajek).
Figure 14 : Graphe (complet) du patron NOM ADJ
dans le Père Duchesne (cf rapport supra).
Figure 15 : Graphe (partiel) du patron NOM ADJ (contenant "\blib")
dans le Père Duchesne (cf rapport supra).
Figure 16 : Graphe des polycooccurrents de "foutre" dans le Père Duchesne (cf rapport supra).
Figure 17 : Sélection d'items de la trame.
Figure 18 : Le gestionnaire de sélections.
Figure 19 : Le gestionnaire de sélections : sauvegarde d'une sélection.
Figure 20 : Le gestionnaire de sélections : sélection multicritère
Figure 21 : Le rapport : élément de type graphique.
Figure 22 : Graphe et annotations.
Figure 23 : AFC, partition sélectionnée, annotation n°1 (forme), affichage des items spécifiques sur le graphe.
Figure 24 : AFC, partition sélectionnée, annotation n°3 (catégorie), affichage des items spécifiques sur le graphe.
Figure 25 : Réseau de cooccurence autour d'un pôle, annotation n°1 (forme).
Figure 26 : Réseau de polycooccurrence autour d'un pôle, annotation n°1 (forme).
Projet Textomètre par Michel Jacobson. Maquette d'un logiciel illustrant le principe de distinction des concepts de "trame" et de "cadre" pour l'exploration textométrique de ressources textuelles. Cette maquette implémente déjà quelques fonctions utilisables et peut-être utiles. Cette maquette illustre aussi les possibilités offertes par les nouveaux standards tels que XML ou Unicode pour la textometrie.
Projet ANR 2006 - Programme "Corpus et outils de la recherche en sciences humaines et sociales". Textométrie : Fédération des recherches et développements en textométrie autour de la création d’une plateforme logicielle ouverte (Coordinateur : Serge Heiden). Le site Projet Textométrie.
JADT'2008 : http://jadt2008.ens-lsh.fr/. Les Journées internationales d’Analyse statistique des Données Textuelles (JADT) réunissent tous les deux ans, depuis 1990, des chercheurs travaillant dans les différents domaines concernés par les traitements automatiques et statistiques de données textuelles : statisticiens, linguistes, sociologues, spécialistes d’analyse du discours, informaticiens, spécialistes de lexicographie et de fouille de textes. Elles permettent aux participants de présenter leurs résultats, de confronter leurs outils et leurs expériences. Les JADT 2008 se tiendront en France, à Lyon, à l’Ecole normale supérieure Lettres et Sciences humaines.
Lexico : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/
Wiki Lexicométrie : http://tal.univ-paris3.fr/wakka/wakka.php?wiki=Glossaire
[Söze-Duval, 2008], Keyser Söze-Duval. Pour une textométrie opérationnelle. (DOC)
[Heiden, 2006], Heiden Serge, " Modèles de données et formats d'échange pour l'interopérabilité des outils de textométrie " (PDF), in Actes des 8èmes Journées d'analyse statistique des données textuelles, Besançon, 2006.
[Lafon, 1984], Lafon Pierre. Dépouillements et statistiques en lexicométrie. Genève-Paris, Slatkine-Champion.
[Lamalle, 2002], Lamalle C., Salem A., " Types généralisés et topographie textuelle dans l'analyse quantitative des corpus textuels "(PDF), in Actes des 6èmes Journées d'analyse statistique des données textuelles, St Malo, Inria, 2002.
[Lebart, 1994], Lebart L. et Salem A. (1994). Statistique textuelle (en ligne). Paris, Dunod.
[Pincemin, 2008], Bénédicte Pincemin (CNRS/ICAR). "Modélisation textométrique des textes" (PDF), in Actes JADT 2008, Journées Internationales d'Analyse Statistiques des Données Textuelles, Lyon 2008.
[Salem, 2006], André Salem, Cédric Lamalle, Serge Fleury (EA2290 SYLED/CLA2T). "Vers une description formelle des traitements textométriques" (PDF), in Actes JADT 2006, Journées Internationales d'Analyse Statistiques des Données Textuelles, Besançon 2006.
2007 | CLA2T/SYLED | http://tal.univ-paris3.fr/trameur/ | Contact : serge.fleury[at]univ-paris3.fr | MàJ : 01/10/2010 |