wiki (TAL-Lexicométrie) GADT

GlossaireS

PagePrincipale :: DerniersChangements :: DerniersCommentaires :: ParametresUtilisateur :: Vous êtes ec2-54-80-236-48.compute-1.amazonaws.com
 
Page à créer :

Glossaire pour la statistique textuelle


Lettre S


Glossaire A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Abréviations :

ac Analyse factorielle des correspondances
acm Analyse des correspondances multiples
cla Classification
sp Méthode des Spécificités
sr Analyse des segments répétés
ling Linguistique
stat Statistique
sa Segmentation automatique

section (sr)
portion de texte comprise entre deux délimiteurs de section (exemple : le paragraphe, etc.).

segment (sr)
toute suite d'occurrences consécutives dans le corpus et non séparées par un séparateur de séquence est un segment du texte.

segment répété (sr) (ou polyforme répétée)
suite de forme dont la fréquence est supérieure ou égale à 2 dans le corpus.

segmentaire (sr)
ensemble des termes* attestés dans le corpus.

segmentation
opération qui consiste à délimiter des unités minimales dans un texte.

segmentation automatique
ensemble d'opérations réalisées au moyen de procédures informatisées qui aboutissent à découper, selon des règles prédéfinies, un texte stocké sur un support lisible par un ordinateur en unités distinctes que l'on appelle des unités minimales.

séparateurs de phrases (sa)
sous-ensemble des caractères délimiteurs de séquence* correspondant aux seules ponctuations fortes (en général : le point, le point d'interrogation, le point d'exclamation).

séquence (sa)
suite d'occurrences du texte non séparées par un délimiteur* de séquence.

seuil (stat)
quantité arbitrairement fixée au début d'une expérience visant à sélectionner parmi un grand nombre de résultats, ceux pour lesquels les valeurs d'un indice numérique dépassent ce seuil (de fréquence, en probabilité, etc.).

sous-fréquence (sa) (d'une unité textuelle dans une partie, tranche, etc.)
nombre des occurrences de cette unité dans la seule partie (resp. tranche, etc.) du corpus.

sous-segments (sr)
pour un segment donné, tous les segments de longueur inférieure et compris dans ce segment sont des sous-segments. ex : AB et BC sont deux sous-segments du segment ABC.

spécificité chronologique (sp)
spécificité* portant sur un groupe connexe de parties d'un corpus muni d'une partition longitudinale.

spécificité positive (sp)
pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique positive de la partie j (ou forme caractéristique de cette partie) si sa sous-fréquence est "anormalement élevée" dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou supérieures à la sous-fréquence constatée est inférieure au seuil fixé au départ.

spécificité négative (sp)
pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique négative de la partie j si sa sous-fréquence est anormalement faible dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou inférieures à la sous-fréquence constatée est inférieure au seuil fixé au départ.

stock distributionnel du vocabulaire (d'un fragment de texte)
le vocabulaire* de ce fragment assorti de comptages de fréquence pour chacune des formes entrant dans sa composition.

syntagmatique (sa)
qui concerne le regroupement des unités textuelles, selon leur ordre de succession dans la chaîne écrite.

syntagme (ling)
groupe de mots en séquence formant une unité à l'intérieur de la phrase.
Il n'y a pas de commentaire sur cette page. [Afficher commentaires/formulaire]