(pluri)TAL 

Journal de lectures, de liens, d'activités pour les étudiants
du secteur TAL [Université Paris 3 Sorbonne nouvelle | ILPGA]
HyperToile : http://tal.univ-paris3.fr

23/3/2006

Projet Nuages : des “grappes de mots”

(cf Post-404 ou projet Nuages )
Information mutuelle dans les fils RSS du Monde/AFP (cf projet Fils de Presse)
Présentation de la chaîne de traitements : “Information mutuelle : repérer les mots qui s’attirent…” par Benoît Habert.
Application de cette chaîne sur un corpus constitué de tous les fils RSS du Monde et AFP, période : novembre 2005 - mars 2006 (499.000 mots). Etiquetage avec TreeTagger, via ChronoFilTagger.

(1) Filtrage des catégories NOM, ADJ, fréquence de cooccurrence > 10, Coeff IM > 9

(2) Filtrage des catégories NOM, VERBE, fréquence de cooccurrence > 10, Coeff IM > 8

(3) Filtrage des catégories NOM, PRP, fréquence de cooccurrence > 10, Coeff IM > 10

Comments

No comments yet.

RSS feed for comments on this post.

Leave a comment

Sorry, the comment form is closed at this time.

(pluri)TAL avec WordPress