SensNet
Catégorisation sémantique des usages et des parcours sur le Web
Objectifs:
L’objectif global du projet est de mettre en œuvre un système d’analyse sémantique du Web constitué à partir des usages effectifs du Web, qui tienne compte des types d’activité et des aspects hypermédia ; qui situe les pages vues dans leur site d’origine et dans les parcours, comme étant à la croisée entre un site et un parcours et qui s’appuie sur le récit des pratiques des utilisateurs et concepteurs pour donner du sens.
Le premier objectif
est de constituer un prototype de plate-forme de catégorisation
automatique qui permette
1) de catégoriser
les types d’activité (communiquer, consulter, acheter…), ce qui
implique d’établir un inventaire de ces types d’activité
;
2) de capturer les traits
formels (par exemple la présence de liens externes ou d’images sur
la page) et textuels (par exemple les pronoms personnels ou les noms rares…)
prédéfinis, correspondants à des pages vues et à
des parcours ;
3) d’affecter des catégories
thématiques aux pages consultées.
Le deuxième objectif
consiste
1) à identifier les
traits formels et textuels pertinents pour caractériser les objets
du Web qui seront capturés dans la plateforme qui vient d’être
décrite et
2) à mettre au point
des méthodes de traitement adaptées à chaque type
de traits. Il pourra y avoir des stratégies de catégorisation
complémentaires. On pourra par exemple considérer que les
contenus de la balise HTML META, que remplit le concepteur de site et qui
sont largement utilisés pour l’indexation, constituent un jeu de
traits pertinents pour catégoriser thématiquement les sites.
Et ces traits pourront être soumis à différents types
de traitement (catégorisation inductive, supervisée…).
Dans ce contexte, la mise en place d’un système informatique requiert la confrontation permanente avec les données. C’est pourquoi la mise au point de l’outil se fera par l’exploration systématique des données d’usage et de parcours.
Notre troisième objectif est d’explorer de manière approfondie plusieurs usages d’Internet. Comme il est hors de propos de catégoriser tout le Web, nous sélectionnons des types de sites (portails, sites marchands et serveurs communautaires, sites consacrés à la musique) et des types de pratiques (recherche d’information, achat en ligne, consultation d’archives en ligne) sur lesquels nous projetterons les parcours. L’exploration de ces usages et le croisement avec des entretiens qualitatifs permettront de définir précisément les traits les plus pertinents pour catégoriser les sites et les parcours. Un autre aspect important et original du projet est de relier ces parcours catégorisés au profil socio-démographique des internautes. En effet, l’utilisation d’un panel représentatif des internautes permet d’obtenir des données précises de comportement d’individus dont le profil est connu. Les profils permettent d’enrichir la catégorisation des sites et des parcours, de même que la catégorisation thématique va enrichir le profil des internautes.
Enfin, le dernier objectif correspond à la démarche de validation des outils mis en place et des méthodes d’analyse qui s’étendra tout au long du projet et fera l’objet d’un sous-projet particulier. Il est essentiel dans ce projet d’identifier précisément les avancées et les limites de la catégorisation sémantique automatique telle que nous la proposons, afin de l’améliorer via une confrontation permanente avec le terrain (professionnels de l’Internet, internautes). Un bilan sera réalisé en fin de projet.
Mise en oeuvre et état
de l'art :
Ce projet met en oeuvre
une approche pluridisciplinaire et s'appuie sur des méthodes et
outils issus de différents domaines :
- Linguistique informatique, et notamment la linguistique de corpus.
- Statistiques et analyse de données.
- Techniques de recueil de trafic Internet.
- Méthodes de la sociologie des usages.
Il y a deux types de verrous à lever :
Verrou technologique
: insuffisance de l’information contenue dans les urls
L’analyse des adresses (urls)
ne permet pas d’obtenir une information suffisamment fine. En effet, à
titre d’exemple, les contenus générés dynamiquement
ne donnent aucune information sur les thématiques dans les urls,
mais des informations techniques (n° de fichier par exemple). Il est
donc indispensable d’analyser le contenu des pages.
Verrou économique
: coût de la catégorisation manuelle
Une classification manuelle
des sites les plus importants est déjà réalisée
par les équipes de NetValue, en fonction d’une typologie propre
aux sites. La complexité des sites de type « portail »,
qui proposent l’ensemble des services accessibles sur le Web (information,
messagerie, sports, finance, etc.) rend très difficile la classification
de leurs contenus. Par ailleurs, il est impossible en l’état de
catégoriser l’ensemble des pages vues par le panel tous les mois
(plusieurs millions de pages par pays et par mois). Cette difficulté
est accentuée par le changement rapide du contenu des pages et de
la structure des sites.
Organisation du projet
:
Le projet est prévu
pour une durée de 24 mois et est décomposé en cinq
sous-projets :
Sous-projet 1 :
Prototype de plate-forme de catégorisation automatique (pilotage
: NetValue). Il s’agit de développer un système qui permette
1) de capturer les traits formels et textuels définis en amont,
correspondants à des pages vues et à des parcours ; 2) de
catégoriser les types d’activité (ce qui implique d’établir
un inventaire de ces types d’activité).
Sous-projet 2 :
Définition des traits et méthodes de traitement associées
(pilotage : LIMSI). Il vise 1) à identifier les traits formels et
textuels pertinents pour caractériser les objets du Web et 2) à
mettre au point des méthodes de traitement adaptées à
chaque type de traits. Il pourra y avoir des stratégies de catégorisation
complémentaires (catégorisation inductive, supervisée…).
Sous-projet 3
: Sites, parcours et utilisateurs (pilotage : France Télécom
R&D). Le sous-projet consiste à explorer de manière approfondie
plusieurs usages d’Internet, en sélectionnant des types de sites
et des types de pratiques.
Sous-projet 4
: Validation des outils et des méthodes d’analyse (pilotage : NetValue)
Ce sous-projet consiste
à confronter la catégorisation induite à 1) celle
des professionnels 2) celle perçue par les internautes et à
mettre en évidence le caractère discriminant ou non des traits.
Sous-projet 5
: Pilotage et coordination (pilotage : France Télécom R&D)
Ce sous-projet est dédié
1) à la mise en place des moyens (serveurs, outils de travail coopératifs)
nécessaires pour partager les données, les outils et les
avancées des différents sous-projets et 2) au suivi du bon
déroulement du projet. Il sera pris en charge par le comité
de pilotage regroupant des représentants de chaque partenaires.
Retombées du projet
:
Ce projet aura des retombées
aussi bien scientifiques qu'économiques.
Retombées scientifiques : nous nous attendons à des résultats scientifiques dans le domaine des usages, allant dans le sens d’une meilleure connaissance des profils des utilisateurs d’Internet et de la manière dont ils perçoivent les services et contenus qui leur sont proposés. Les méthodes et outils d’analyse sémantique que nous proposons présentent une démarche scientifique originale qui s’intègre dans le cadre de la linguistique de corpus. La communauté scientifique « web sémantique » sera également très réceptive à nos résultats. En effet, nous comptons faire des propositions dans le cadre de l’action semantic web du W3C à partir des résultats obtenus dans SensNet.
Retombées industrielles et économiques : ce projet pourrait aboutir à des outils pour :
- le classement des sites Web (ou rubriques) qui traitent principalement d’un thème donné;
- le classement des thèmes les plus consultés pour un site donné (ou un ensemble de sites);
- la mise en relation des profils socio-démographiques des inernautes avec leurs thèmes de prédilection (outil marketing);
- l'aide à la navigation dans les sites complexes;
- l'aide à la construction d'annuaires thématiques du Web.
Dernière modification le 14.06.2001 par