BàO 2: Etiquetage morphosyntaxique
On
réalise, à partir des fichiers textes obtenus précédemment, un
étiquetage
morpho-syntaxique des mots.
- Etiquetage
avec Cordial :
Cordial est un programme payant, disponible
uniquement pour Windows et qui possède une interface graphique.
- Etiquetage avec TreeTagger : TreeTagger est un programme gratuit qui fonctionne en ligne de commandes.
Avec l'aide de M. Fleury, nous avons retravaillé notre script après BàO1.
texte brut (xml) à télécharger
texte (Cordial) à télécharger
texte (Lexico 3) à télécharger
texte brut (xml) à télécharger
texte (Cordial) à télécharger texte (Lexico 3) à télécharger
Cordial
Pour
le logiciel Cordial, on va s’intéresser aux fichiers textes
SORTIE_pour_Cordial_$rubrique.txt
Ces
fichiers étant encodés en UTF-8 et le logiciel Cordial traitant les
fichiers en
ISO-8859-1, il fallait les convertir, ce qu’on a fait avec la commande
iconv.
On
ouvre, dans Cordial, le fichier texte encodé en ISO-8859-1 $rubrique_Cordial.txt
Il
suffit
pour cela de charger le texte, de cliquer sur "Syntaxe" >
"Etiquetage de texte"
dans la barre de menu, et de tout décocher à
l'exception de "Lemmes"
dans la
fenêtre qui apparaît.
On
obtient en
sortie un fichier (au format .cnr) comportant un mot par ligne, où
chaque ligne
suit le patron token [tabulation] lemme [tabulation]
catégorie (différent
de celui de
TreeTagger).
2010 (toutes rubriques) fichier .cnr à télécharger
2009 (toutes rubriques) fichier .cnr à télécharger
TreeTagger
Nous
avons créé une
procédure &lancetreetagger
que nous avons intégrée à la fin de notre script de
Bà01.
Toutefois, nous avons
rencontré des erreurs à
cause de l’UTF-8.
Ainsi Mr Fleury nous a aidées à reconcevoir notre script de Bà02 pour ne plus rencontrer cette erreur. Pour cela, nous avons créé la procédure &etiquetageavectreetagger.
fichier bao2_bascarane_dubremetz.pl à voir | à télécharger
On obtient en sortie un fichier comportant un mot par ligne, où chaque ligne suit le modèle token [tabulation] catégorie [tabulation] lemme.
2010
(toutes rubriques) fichier.xml
passé par Treetagger à télécharger