Partie 3
Exercices sur le "Corpus Prématurés" avec emacs
Fichier p96.tab
Pour faire rechercher une chaîne de caractère sur Emacs, il faut d'abord taper M-x occur (M=Alt) puis l'expression régulière nécessaire.
On peut voir l'expression régulière effectuée à la première ligne du résultat.
1. Rechercher les fiches contenant une interrogation
2. Rechercher les fiches correspondant au bébé 12
3. Rechercher les fiches correspondant au bébé 1
4. Rechercher les fiches pour lesquelles le score médical est de 12
5. Faire de même pour un score de 10. Pouvez-vous expliquer le résultat ?
Fichier p96.bal
1. Rechercher les fiches concernant les bébés 10 à 12
2. Rechercher les fiches concernant les bébés 10 et 12, c'est-à-dire sans 11 et 13
3. Rechercher le nombre de bébés de 23, ..., 30 semaines
4. Rechercher les fiches du jour 0 pour lesquels le bébé est né à 28 semaines
5. Rechercher les fiches des bébés nés entre 23 et 29 semaines
6. Rechercher les fiches pour lesquels le bébé à la naissance faisait au moins 1000 grammes
7. Rechercher les fiches pour lesquels le bébé à la naissance faisait moins de 1000 grammes
Extraire sur Emacs
Sur p96.tab
Vu que cette partie est assez répétitive dans les manipulations, je vais vous expliquer pas à pas comment extraire une partie spécifique d'un fichier:
1) Ctrl-x ( ==début de la macro
2) Ctrl-s == chercher une chaîne de caractère en avant (aussi commande M-x search-forward-regexp)
3) *taper les caractères désirés ou l'expression régulière*
4) Ctrl-a == se déplacer au début de la ligne
5) Ctrl-ESPACE == marque la chaîne de caractères
6) Ctrl-e == place le curseur en fin de ligne en la sélectionnant
7) M-w == définit le début de la zone
8) Ctrl-x o ==va dans la 2ème fenêtre
9) Ctrl-y == colle le résultat
10) Ctrl-x o == retourne à la 1ère fenêtre
11) Ctrl-x ) == fin de la macro, le tout est mémorisé
12 ) Ctrl-x e == répète la macro
Puis enregistrer.
Quelles fiches vont être extraites si l'on demande les fiches commençant par 13 ? Expliquer ?
On tape M-x occur, puis l'expression régulière ^13[0-9]* pour choisir toutes les fiches commençant par un 13 mais qui peuvent avoir plusieurs chiffres après. Puis on enregistre pour l'extraction.
Sur p96.bal
Extraire les fiches rédigées par les infirmières 12 et 22
Extraire les fiches concernant le bébé 10 et ne correspondant pas au jour 0
Exercices sur le "Corpus Prématurés" avec egrep
Fichier p96.tab
1. Extraire les fiches contenant une interrogation
2. Extraire les fiches correspondant au bébé 12
3. Extraire les fiches correspondant au bébé 1
4. Extraire les fiches pour lesquelles le score médical est de 12
5. Faire de même pour un score de 10.
6. Quelles sont les fiches qui vont être extraites si l'on recherche les fiches commençant par 13 ? Expliquer ?
Dans ce fichier, vu que le nombre débutant la ligne est composé du numéro du bébé+celui du jour de l'observation+l'observation dans la journée, il est probable que dans la recherche des fiches commençant par 13, il en résulte que soient extraient aussi le numéro du bébé (=1) mais aussi le jour de l'observation (=3) en plus des fiches où le numéro du bébé est 13.
7. Extraire les fiches correspondant aux bébés faisant au moins 1000 grammes.
Fichier p96.bal
1. Extraire les fiches concernant les bébés 10 à 12
2. Extraire les fiches concernant les bébés 10 et 12, c'est-à-dire sans 11 et 13
3. Trouver le nombre de bébés de 23, ..., 30 semaines
4. Extraire les fiches du jour 0 pour lesquels le bébé est né à 28 semaines
5. Extraire les fiches des bébés nés entre 23 et 29 semaines
6. Extraire les fiches pour lesquels le bébé à la naissance faisait au moins 1000 grammes
7. Extraire les fiches pour lesquels le bébé à la naissance faisait moins de 1000 grammes
8. Extraire les fiches rédigées par les infirmières 12 et 22
9. Si l'on veut extraire les fiches rédigées par les infirmières 2, 12 et 22, quel est l'inconvénient de la solution suivante : "egrep '(2|12|22)' p96.bal" ?
L'expression régulière '
10. Extraire les fiches concernant le bébé 10 et ne correspondant pas au jour 0
Exercices sur le "Corpus Prématurés" (textuils niveau 0)
1. Déterminer les différentes catégories présentes dans le corpus (leur nombre et leur fréquence)
2. Pour chaque catégorie déterminer tous les mots associés.
Nous voulons déterminer les catégories présentes dans le fichier liste-mots.txt.
Le nombre, la fréquence et les mots liés à chaque catégories sont visibles sur les images.
Il y a dans ce corpus (je ne fais ici pas de disctinction de genre et de nombre):
- 63 Noms communs - 30 Adverbes de différents types (négation, absence...) - 89 adjectifs - 25 verbes (avec les participes) - 2 conjonctions - 2 déterminants - 5 prépositions - 1 pronom indéfini - 9 pronoms réfléchis - 5 pronoms personnels - 4 pronoms définis
Exercices sur le "Corpus Prématurés" niveau 1)
Etape 1: un index des adjectifs
Le but est de construire un index de tous les adjectifs présents dans le corpus du fichier p96.tag
Etape 2: filtrages
Après avoir choisis 5 adjectifs de l'index (confortable, douce, dynamique, fin, harmonieux):
1. Extraire les zones textuelles contenant les adjectifs choisis et le numéro de l'infirmière associée
Résultat confortable - Résultat douce - Résultat dynamique - Résultat fin - Résultat harmonieux
Le numéro de l'infirmière est noté dans la "colonne" 12.
D'où la fonction cut -f12 pour trouver le numéro de l'infirmière associée.