Exercices sur le « Corpus Prématurés » (textutils niveau 0)

Textes de travail : index des mots du corpus prématurés

Ressources : http://tal.univ-paris3.fr/corpus/Prem-txt.zip
On trouvera dans l'archive précédente un fichier regroupant l'ensemble des mots du corpus (un par ligne).

Chaque ligne est construite de la manière suivante : un mot est suivi de sa catégorie : la forme bébé Nom Masculin Singulier

bébé_NMS


1. Déterminer les différentes catégories présentes dans le corpus (leur nombre et leur fréquence)

On cherche la liste des différentes catégories présentes dans le corpus :





On cherche le nombre de catégories différentes dans le corpus :





Voici le schéma de la commande qui nous permettra de trouver le nombre d'occurences d'une catégorie dans le corpus :



2. Pour chaque catégorie déterminer tous les mots associés

Voici le schéma de la commande qui nous permettra de trouver tous les mots associés à une catégorie :


Nombre d'occurences et mots associés :
  • ADV : 26


  • ADVNE : 3


  • ADVPAS : 1


  • AFP : 1


  • AFS : 27


  • AMP : 1


  • AMS : 60


  • COCO : 1


  • COSUB : 1


  • DETMS : 2


  • NFS : 7


  • NMP : 1


  • NMS : 55


  • PDEMMS : 4


  • PINDMS : 1


  • PPER1S : 1


  • PPER3FS : 3


  • PPER3MS : 1


  • PREFMP : 1


  • PREFMS : 8


  • PREP : 1


  • PREPDES : 1


  • V3S : 20


  • VE3S : 1


  • VPPFS : 4