Partie 3
Dans cette dernière partie, nous avons travaillé dans le terminal en employant principalement la commande "egrep" ainsi que d'autres commandes pour extraire les zones textuelles et les trier (sort, cut ...)
Site par Manon BERNARD & Cedar STOLTENOW
Dans cette dernière partie, nous avons travaillé dans le terminal en employant principalement la commande "egrep" ainsi que d'autres commandes pour extraire les zones textuelles et les trier (sort, cut ...)
Dans cette section nous travaillons avec la commande Egrep dans la fenêtre de commande. C'est une commande qui sert à traiter des données textuelles, et que nous utiliserons pour chercher des occurrences d'une certaine motif dans un fichier donné. Nous allons traiter deux documents dont vous trouverez les liens juste au-dessus. Dans ces textes nous effectuerons des recherches sur chaque document, cherchant des occurrences d'un motif particulier pour extraire des lignes contenant le motif recherché du fichier original et les sauvegarder dans un nouveau fichier.
egrep "\?" p96.tab > eg1_tab.txt
egrep "^12[0-9][0-9]+" p96.tab > eg2_tab.txt
egrep "^1[0-9][0-9][^0-9]" p96.tab > eg3_tab.txt
egrep "12[^0-9]*$" p96.tab > eg4_tab.txt
egrep "^13$" p96.tab > eg6_tab.txt
Nous ne savons pas ...
egrep "BEBE>1[0-2]" p96.bal > eg1_bal.txt
egrep "BEBE>1[02]" p96.bal > eg2_bal.txt
egrep "JOURS>0.+TERME>28" p96.bal > eg4_bal.txt
egrep "TERME>2[3-8][^0-9]" p96.bal > eg5_bal.txt
egrep "POIDS>1[0-9][0-9][0-9]" p96.bal > eg6_bal.txt
egrep "POIDS>[0-9][0-9][0-9][^0-9]" p96.bal > eg7_bal.txt
egrep "INFIRMIERE>[12]2[^0-9]" p96.bal > eg8_bal.txt
Dans ce cas Egrep considère qu'on cherche des fichiers avec un 2 en première position et/ou un 1 ou 2 en deuxième position et/ou un 2 en troisième position. Une meilleure recherche serait egrep "INFIRMIERE>([12]2|2[^0-9])" p96.bal > eg9_bal.txt
egrep "BEBE>1[^1-9].+
Dans cet exercice, nous compterons le nombre d'occurrences correspondant à chaque fonction
Question 1 • Déterminer les différentes catégories présentes dans le corpus (leur nombre et leur fréquence)On utilisera Emacs avec la fonction "count-matches" et il suffira de changer la catégorie dans la commande
Lien vers le fichier de résultats pour le cas de l'adjectif masculin singulier
Prenons l'exemple des adverbes. Après avoir analysé ce fichier, on trouve 26 catégories différentes.
Pour répondre à cette question, il a fallu faire une macro avec Emacs. Il suffit donc de changer l'expression régulière (search-forward-regexp) pour changer de catégorie en faisant ctrl-x ctrl-k.
Nous avons donc utiliser l'expression régulière avec egrep ansi que les commandes "tr" et "sort."
Nous avons donc choisi les adjectifs suivants : "labile, petite, paisible, harmonieux et attentive".
Lien vers le fichier de résultats pour les adjectifs "petite et paisible"
Lien vers le fichier de résultats pour les adjectifs "harmonieux et attentive"
Il faut alors utiliser la commande "cut" pour ne garder que les zones textuelles, la commande "egrep" pour pouvoir changer le numéro de l'infirmière et enfin la commande "egrep -o" suivie de l'expression irrégulière appropriée pour ne garder que les adjectifs choisis.
Lien vers le fichier de résultats pour l'infirmière n°4
Lien vers le fichier de résultats pour l'infirmière n°9
Lien vers le fichier de résultats pour l'infirmière n°11
Lien vers le fichier de résultats pour l'infirmière n°13
Lien vers le fichier de résultats pour l'infirmière n°20