Projet Nuages : des “grappes de mots”
(cf Post-404 ou projet Nuages )
Information mutuelle dans les fils RSS du Monde/AFP (cf projet Fils de Presse)
Présentation de la chaîne de traitements : “Information mutuelle : repérer les mots qui s’attirent…” par Benoît Habert.
Application de cette chaîne sur un corpus constitué de tous les fils RSS du Monde et AFP, période : novembre 2005 - mars 2006 (499.000 mots). Etiquetage avec TreeTagger, via ChronoFilTagger.
(1) Filtrage des catégories NOM, ADJ, fréquence de cooccurrence > 10, Coeff IM > 9
(2) Filtrage des catégories NOM, VERBE, fréquence de cooccurrence > 10, Coeff IM > 8
(3) Filtrage des catégories NOM, PRP, fréquence de cooccurrence > 10, Coeff IM > 10
Comments
No comments yet.
RSS feed for comments on this post.
Leave a comment
Sorry, the comment form is closed at this time.



