Partie 1
Reprenons le problème du début...
On a un texte relativement monstrueux a traiter (à la main ca prendrait du temps)
Ce texte est structuré, ce qui veut dire que les informations sont classées
On a besoin de certaines informations, ici le contenu des balises description.
Il nous faut donc chercher le contenu de ces balises dans le corpus et les extraire. Ce que l'on peut faire grâce a ce script de filtrage basé sur le script donné au début. Le resultat est ce fichier xml qui contient le contenu de toutes les balises description des articles, ainsi que son équivalent au format texte brut
Haaa, voilà des données exploitables ^^
pas tout a fait...
En fait il va falloir formater nos informations pour pouvoir les
étiqueter avec treetagger, pour cela il faut modifier notre
script de départ pour donner ce script ci.
Il produit une sortie sans etiquetage en texte brut et la même en xml
une sortie etiquetée par treetagger au format texte brut et la meme en xml
voila on a même exploité nos données dans la
foulée... et pourtant notre version de treetagger n'etiquette
pas plus de 200 mots mais le contenu des balises description n'atteint
jamais ce nombre de mots.
partie 2
revenir au sommaire