Exercices sur le « Corpus Prématurés »
(textutils niveau 0)
Textes de travail : index des mots du corpus prématurés
Ressources :
http://tal.univ-paris3.fr/corpus/Prem-txt.zip
On trouvera dans l'archive précédente
un fichier regroupant l'ensemble des mots du corpus (un par ligne).
Chaque ligne est construite de la manière suivante : un mot est suivi de sa catégorie : la forme bébé Nom Masculin Singulier
bébé_NMS
1. Déterminer les différentes catégories présentes dans le corpus (leur nombre et leur fréquence)
On cherche la liste des différentes catégories présentes dans le corpus :

On cherche le nombre de catégories différentes dans le corpus :


Voici le schéma de la commande qui nous permettra de trouver le nombre d'occurences d'une catégorie dans le corpus :

2. Pour chaque catégorie déterminer tous les mots associés
Voici le schéma de la commande qui nous permettra de trouver tous les mots associés à une catégorie :
Nombre d'occurences et mots associés :
ADV : 26

ADVNE : 3

ADVPAS : 1

AFP : 1

AFS : 27

AMP : 1

AMS : 60

COCO : 1

COSUB : 1

DETMS : 2

NFS : 7

NMP : 1

NMS : 55

PDEMMS : 4

PINDMS : 1

PPER1S : 1

PPER3FS : 3

PPER3MS : 1

PREFMP : 1

PREFMS : 8

PREP : 1

PREPDES : 1

V3S : 20

VE3S : 1

-
VPPFS : 4
