Sommaire
Le but de ces boites a outils est de nous faire appréhender la
puissance de perl et de nous donner des outils qui vont nous servir a
faire de l'analyse textuelle poussée.
D'abord, avec la boite a outils n°1, il a été mis a
notre disposition un script perl permettant de parcourir une
arborescence de fichiers. Il s'agit du script
parcours-arborescence-fichiers.pl.
On nous également fourni une arborescence a parcourir qui porte
le doux nom d'arbo-fils. (en fait il s'agit d'une petite partie du
corpus du monde, au format xml, ainsi qu'un petit logiciel
d'étiquetage nommé treetagger ... Voila pour les bases.
Mais qu'est-ce qu'on en fait?
Alors voilà, il va falloir trier tout ca et puis
l'étiqueter, aussi. Je ne cache pas qu'il va falloir jongler
avec les formats de fichiers, avec les étiqueteurs et que tout
cela ne va pas être simple.
Ce travail se divise en boites a outils et notre outil de travail principal, au moins au début, sera PERL.
Pour plus de précisions allez voir le site du CPAN. Sinon la doc de Perl en français se trouve ici.
Il y a même un plan ! (Je ne suis pas sur de la pertinence de cette information...)
Mais comment on fait ?
avec treetagger
avec cordial
extraction terminologique
Des textes aux graphes