I. Extraction de patrons des fichiers étiqueté avec Treetagger

Ressources fournies

1. Deux fichiers étiquetés XML la sortie de Treetagger aprés l'application de Treetagger2xml.pl pour mes deux rubriques europe et international.

2. Oxygen: Editeur XML sous Linux

3. Exemple d'une feuille de style permet l'extraction de patrons

Traitement à réaliser et Problèmes

Pour faire l'extraction des patrons des fichiers étiquetés avec Treetagger et qui sont au format XML, nous devons appliquer les feuilles de style XSLT sur ces fichiers.


Ces feuilles de styles, nous permettent d'extraire les patrons à partir des requétes XPATH. Ensuite, on applique des transformations XSLT pour bien organiser les résultats obtenus.

Nous devons donc appliquer 3 feuilles de style une pour les patrons NOM NOM, une autre pour NOM ADJ et une derniére pour NOM PREP NOM.

II. Extraction de patrons des fichiers étiquetés avec Cordial

Ressources fournies

1. Deux fichiers étiquetés la sortie de Cordial pour mes deux rubriques europe et international.

2. trouve_terme_cordial.pl: Ce programme est réalisé par nos professeurs en cours pour nous permettre d'extraire les patrons d'un fichiers étiqueté. Ce programme a comme entrée un fichier étiqueté et le fichier patrons.txt

3. extrait_patron_cordial.pl: Ce programme a été réalisé dans le cours de Perl, il permet d'extraire des patrons spécifiés dans le programme.Ce programme a comme entrée seulement un fichier étiqueté.

Traitement à réaliser et Problèmes

Deux méthodes ont été proposées en cours pour nous permettre l'extraction de patrons avec un script Perl.


Première méthode : Il s'agit d'exécuter trouve_terme_cordial.pl en ligne de commande en mettant comme arguments le fichier étiqueté et le fichier patrons.txt qui contient le patrons à extraire.

Dans mon cas j'ai deux fichiers comme sorties de Cordial donc je dois lancer ce programme deux fois. C'est pour cela j'ai modifié trouve_terme_cordial.pl de maniére qu'il permette d'accepter deux entrées de fichiers étiquetés et un fichier patrons.txt afin de génerer deux fichiers de sorties.

Deuxiéme méthode : Il s'agit de faire un script en indiquant les patrons à extraire. Donc, on doit utiliser 3 scripts pour nos patrons: NOM NOM, NOM ADJ et NOM PREP NOM.


  BAO 1

Télécharger le script + Les sorties de BAO1

  BAO 2

Télécharger le script + Les sorties de BAO2

  BAO 3

Télécharger le script + Les sorties de BAO3