Partie 1

Reprenons le problème du début...
On a un texte relativement monstrueux a traiter (à la main ca prendrait du temps)
Ce texte est structuré, ce qui veut dire que les informations sont classées
On a besoin de certaines informations, ici le contenu des balises description.
Il nous faut donc chercher le contenu de ces balises dans le corpus et les extraire. Ce que l'on peut faire grâce a ce script de filtrage basé sur le script donné au début. Le resultat est ce fichier xml qui contient le contenu de toutes les balises description des articles, ainsi que son équivalent au format texte brut

Haaa, voilà des données exploitables ^^
pas tout a fait...

En fait il va falloir formater nos informations pour pouvoir les étiqueter avec treetagger, pour cela il faut modifier notre script de départ pour donner ce script ci.
Il produit une sortie sans etiquetage en texte brut et la même en xml
une sortie etiquetée par treetagger au format texte brut et la meme en xml

voila on a même exploité nos données dans la foulée... et pourtant notre version de treetagger n'etiquette pas plus de 200 mots mais le contenu des balises description n'atteint jamais ce nombre de mots.

partie 2
revenir au sommaire