Serge Fleury

Maître de Conférences en linguistique informatique Sorbonne nouvelle, Paris 3
Membre du SYLEDED268

ILPGA / Sorbonne nouvelle
 

SensNet
Catégorisation sémantique des usages et des parcours sur le Web


Objectifs:
L’objectif global du projet est de mettre en œuvre un système d’analyse sémantique du Web constitué à partir des usages effectifs du Web, qui tienne compte des types d’activité et des aspects hypermédia ; qui situe les pages vues dans leur site d’origine et dans les parcours, comme étant à la croisée entre un site et un parcours et qui s’appuie sur le récit des pratiques des utilisateurs et concepteurs pour donner du sens. 

Le premier objectif est de constituer un prototype de plate-forme de catégorisation automatique qui permette 
1) de catégoriser les types d’activité (communiquer, consulter, acheter…), ce qui implique d’établir un inventaire de ces types d’activité ; 
2) de capturer les traits formels (par exemple la présence de liens externes ou d’images sur la page) et textuels (par exemple les pronoms personnels ou les noms rares…) prédéfinis, correspondants à des pages vues et à des parcours ; 
3) d’affecter des catégories thématiques aux pages consultées.

Le deuxième objectif consiste
1) à identifier les traits formels et textuels pertinents pour caractériser les objets du Web qui seront capturés dans la plateforme qui vient d’être décrite et 
2) à mettre au point des méthodes de traitement adaptées à chaque type de traits. Il pourra y avoir des stratégies de catégorisation complémentaires. On pourra par exemple considérer que les contenus de la balise HTML META, que remplit le concepteur de site et qui sont largement utilisés pour l’indexation, constituent un jeu de traits pertinents pour catégoriser thématiquement les sites. Et ces traits pourront être soumis à différents types de traitement (catégorisation inductive, supervisée…). 

Dans ce contexte, la mise en place d’un système informatique requiert la confrontation permanente avec les données. C’est pourquoi la mise au point de l’outil se fera par l’exploration systématique des données d’usage et de parcours. 

Notre troisième objectif est d’explorer de manière approfondie plusieurs usages d’Internet. Comme il est hors de propos de catégoriser tout le Web, nous sélectionnons des types de sites (portails, sites marchands et serveurs communautaires, sites consacrés à la musique) et des types de pratiques (recherche d’information, achat en ligne, consultation d’archives en ligne) sur lesquels nous projetterons les parcours. L’exploration de ces usages et le croisement avec des entretiens qualitatifs permettront de définir précisément les traits les plus pertinents pour catégoriser les sites et les parcours. Un autre aspect important et original du projet est de relier ces parcours catégorisés au profil socio-démographique des internautes. En effet, l’utilisation d’un panel représentatif des internautes permet d’obtenir des données précises de comportement d’individus dont le profil est connu. Les profils permettent d’enrichir la catégorisation des sites et des parcours, de même que la catégorisation thématique va enrichir le profil des internautes. 

Enfin, le dernier objectif correspond à la démarche de validation des outils mis en place et des méthodes d’analyse qui s’étendra tout au long du projet et fera l’objet d’un sous-projet particulier. Il est essentiel dans ce projet d’identifier précisément les avancées et les limites de la catégorisation sémantique automatique telle que nous la proposons, afin de l’améliorer via une confrontation permanente avec le terrain (professionnels de l’Internet, internautes). Un bilan sera réalisé en fin de projet. 

Mise en oeuvre et état de l'art : 
Ce projet met en oeuvre une approche pluridisciplinaire et s'appuie sur des méthodes et outils issus de différents domaines : 

  • Linguistique informatique, et notamment la linguistique de corpus. 
  • Statistiques et analyse de données. 
  • Techniques de recueil de trafic Internet. 
  • Méthodes de la sociologie des usages. 
Verrous :

Il y a deux types de verrous à lever : 

Verrou technologique : insuffisance de l’information contenue dans les urls 
L’analyse des adresses (urls) ne permet pas d’obtenir une information suffisamment fine. En effet, à titre d’exemple, les contenus générés dynamiquement ne donnent aucune information sur les thématiques dans les urls, mais des informations techniques (n° de fichier par exemple). Il est donc indispensable d’analyser le contenu des pages. 

Verrou économique : coût de la catégorisation manuelle 
Une classification manuelle des sites les plus importants est déjà réalisée par les équipes de NetValue, en fonction d’une typologie propre aux sites. La complexité des sites de type « portail », qui proposent l’ensemble des services accessibles sur le Web (information, messagerie, sports, finance, etc.) rend très difficile la classification de leurs contenus. Par ailleurs, il est impossible en l’état de catégoriser l’ensemble des pages vues par le panel tous les mois (plusieurs millions de pages par pays et par mois). Cette difficulté est accentuée par le changement rapide du contenu des pages et de la structure des sites. 

Organisation du projet : 
Le projet est prévu pour une durée de 24 mois et est décomposé en cinq sous-projets : 

Sous-projet 1 : Prototype de plate-forme de catégorisation automatique (pilotage : NetValue). Il s’agit de développer un système qui permette 1) de capturer les traits formels et textuels définis en amont, correspondants à des pages vues et à des parcours ; 2) de catégoriser les types d’activité (ce qui implique d’établir un inventaire de ces types d’activité). 
Sous-projet 2 : Définition des traits et méthodes de traitement associées (pilotage : LIMSI). Il vise 1) à identifier les traits formels et textuels pertinents pour caractériser les objets du Web et 2) à mettre au point des méthodes de traitement adaptées à chaque type de traits. Il pourra y avoir des stratégies de catégorisation complémentaires (catégorisation inductive, supervisée…). 
Sous-projet 3 : Sites, parcours et utilisateurs (pilotage : France Télécom R&D). Le sous-projet consiste à explorer de manière approfondie plusieurs usages d’Internet, en sélectionnant des types de sites et des types de pratiques. 
Sous-projet 4 : Validation des outils et des méthodes d’analyse (pilotage : NetValue) 
Ce sous-projet consiste à confronter la catégorisation induite à 1) celle des professionnels 2) celle perçue par les internautes et à mettre en évidence le caractère discriminant ou non des traits. 
Sous-projet 5 : Pilotage et coordination (pilotage : France Télécom R&D) 
Ce sous-projet est dédié 1) à la mise en place des moyens (serveurs, outils de travail coopératifs) nécessaires pour partager les données, les outils et les avancées des différents sous-projets et 2) au suivi du bon déroulement du projet. Il sera pris en charge par le comité de pilotage regroupant des représentants de chaque partenaires. 

Retombées du projet : 
Ce projet aura des retombées aussi bien scientifiques qu'économiques. 

Retombées scientifiques : nous nous attendons à des résultats scientifiques dans le domaine des usages, allant dans le sens d’une meilleure connaissance des profils des utilisateurs d’Internet et de la manière dont ils perçoivent les services et contenus qui leur sont proposés. Les méthodes et outils d’analyse sémantique que nous proposons présentent une démarche scientifique originale qui s’intègre dans le cadre de la linguistique de corpus. La communauté scientifique « web sémantique » sera également très réceptive à nos résultats. En effet, nous comptons faire des propositions dans le cadre de l’action semantic web du W3C à partir des résultats obtenus dans SensNet. 

Retombées industrielles et économiques : ce projet pourrait aboutir à des outils pour :

  • le classement des sites Web (ou rubriques) qui traitent principalement d’un thème donné; 
  • le classement des thèmes les plus consultés pour un site donné (ou un ensemble de sites); 
  • la mise en relation des profils socio-démographiques des inernautes avec leurs thèmes de prédilection (outil marketing); 
  • l'aide à la navigation dans les sites complexes; 
  • l'aide à la construction d'annuaires thématiques du Web. 

Dernière modification le 14.06.2001 par Serge Fleury .