Programmation et projet encadré

Présentation:

La deuxième boite à outils consiste à faire l'étiquetage qui est une étape primordiale dans le processus d'annotation d'un corpus.

L'étiquetage, en linguistique, est une opération morpho-syntaxique qui permet pour un ensemble de couples (graphie, CMS) et un texte, de choisir pour chacun des mots du texte parmi ses CMS associées celle(s) qui correspond(ent) au contexte.

On peut donc définir l'étiquetage comme un traitement automatique intelligent qui permet d'associer selon le contexte de texte des CMS à des graphies.

Il existe plusieurs approches théoriques pour appliquer l'étiquetage, on va s'intéresser dans notre projet à deux seulement:

Approches à base de règles : On va aborder cette approche en appliquant l'étiquetage avec Treetagger.

Approche probabiliste : On va aborder cette approche en appliquant l'étiquetage avec Cordial.

On doit, à partir d'un programme qui parcours une arborescence de fichiers, appliquer un traitement d'étiquetage sur chacun des fichiers rencontrés au moment du parcours.

Dans la suite ma deuxième boite à outils va être divisée en deux:

1.Application d'un traitement d'étiquetage avec Cordial

2.Application d'un traitement d'étiquetage avec Treetagger

En sortie, on aura pour l'application de Tree-tagger un fichier structuré XML et un fichier texte (.cnr) pour l'application de Cordial.

Présentation:

BAO 1

BAO 2

BAO 3

Boite à outils 1

Boite à outils 2

Boite à outils 3

Boite à outils 4