TyPWEB
TYpologie et Profilage de sites WEB (LOT 1)
Outils
- WebXref - Version Sensnet
- Programmes WEBXREF (dernières versions pour Typweb, 10/05/2002)
- Webxref - download version 038 (+ tools) : normalisation de corpus HTML aspirés, sorties de Stat ((mot+TAG)/(file ou site), StatByFile ou StatFull) pour Moulinettes BH-matrices, préparation de corpus d'analyse, traitement des liens
- Webxref - download Homologation version in progress
- Moulinettes Matrices BH 2001 : préparation et émondage de matrices à partir des résultats de stat de Webxref.
- DTD Typweb
- DTD - corpus XML Typwpeb : corpus issu de Webxref
- Chaîne Lynx pour Typweb
- Traitement des parties textuelles via Lynx sous Unix : en sortie, résultats de Stat ((mot+TAG)/(file ou site), StatByFile ou StatFull) similaire à webxref.
- Chaîne de traitements TYPWEB : document de présentation
- Présentation de la chaîne de traitement TYPWEB (Webxref Version 038, préparation des corpus, construction des matrices de traits...) : Version finale 2001 (contient une présentation des outils précédents).
- Le Décanteur (Cyril Grouin - Avril 2001)
- Extraction des coordonnées personnelles incluses dans des corpus de pages web : le Décanteur pour le projet TyPWeb
Outils développés
- L'analyseur de site WEBXREF : historique
- WEBXREF (original) Présentation sur le site des auteurs "Webxref is a Perl5 program to quickly check links in your web documents. Webxref is intended to be easy to use, without any configuration. To check links in index.html and report errors simply call: webxref index.html -- Webxref makes cross references from a html document and the html documents linked from that html document. I.e. the links found in that document are checked for missing links or files, then the links in that document are checked and so on.
- WEBXREF modifié (part 1) : Un analyseur de site et un désosseur de page HTML
- WEBXREF_TypWeb Le programme WEBXREF présenté supra a été modifié pour réaliser un "désossage" des pages HTML lues sur un site en suivant la démarche initiée par le programme original.
- Corpus XML à partir de webxref
- MKTIPO programme écrit en perl (version de test). Documentation à venir.
- Certains champs donnent des comptages sur les éléments HTML présents dans les pages traitées (liens, images). De mÍme le champ sitefiletxtbrut donne l'intégralité du texte contenu dans la page visée.
- Un champ supplémentaire vise à maintenir l'articulation entre les données textuelles de la page HTML initiale et les éléments structurels qui la composent. Le champ sitefiletxtandtagcontent donne en effet une présentation des portions de texte présents et des éléments HTML qui structurent la présentation de ces zones textuelles.
- Statistiques élementaires
- WEBXREF modifié (part 2)
- Outil de préparation de corpus
- MKCORPUS : programme écrit en perl/tk (version de test). Documentation ici Ce programme est disponible ici : MKCorpus Project.
To check links in index.html and report errors simply call:
webxref index.html
Webxref makes cross references from a html document and the html documents linked from that html document. I.e. the links found in that document are checked for missing links or files, then the links in that document are checked and so on.
A development version (0.3.5) is now available, with new features and all the goodness of treesed included. Use this with caution!
Usage: webxref -help/-h -noxref -xref/-x -fluff -htmlonly
-nohttp -delay seconds
-silent/-s -verbose/-v -errors/-e
-long/-l -brief -html
-islocal address-avoid/-a regexp
-one/-1 -depth depth -root/-r rootdir -fullpath
-date yymmdd -time hhmmss -before -after
-find string -findexpr regexp -replace string -replaceexpr regexp -by string/expr
[-files/-f] file1 file2
file.html"
Webxref written 1995 by Rick Jansen (rja@euronet.nl)
Ce programme est disponible ici : download (version 036).
Lecture du rapport écrit par Calin Mosut retraÁant le travail de mise au point de cette nouvelle version : Manuel WEBXREF_TypWeb
Présentation du travail réalisé avec WEBXREF_Typweb dans la phase de pré-traitement des sites : Phase 1
WEBXREF_TypWeb a été écrit par Calin Mosut. (ENS-UMR 8503)
Le programme mktipo vise à construire un corpus normalisé à partir des rapports construits par le programme webxref sur un site donné. A l'issue du traitement, ce programme produit un fichier XML regroupant toutes les informations associées à la description des éléments structurels et textuels du site visé. Cette étape de normalisation permet de structurer les informations à analyser.
Ce programme est disponible ici : download (version 036).Le corpus construit par mktipo contient dans des champs balisés associés à des informations représentant des données relatives aux éléments structurels et aux éléments textuels.
-
Le programme ExtAndStatFrCorpTwp (sorties formatées ou non) permet de générer des statistiques élémentaires sur les corpus issus de mktipo
Ce programme est disponible ici : download (version 036).
-
Les programmes webxref037 et 038 intègrent les outils présentés supra (webxref, mktipo, ExtAndStatFrCorpTwp)
Ces programmes sont disponibles ici : download (version 037), download (version 038).
Voir documentation : Outils d'édition et de manipulation de corpus balisés (SGML, XML, HTML), pour leurs préparations aux outils du TAL tels Lexico, Alceste, Cordial. Pour utiliser et lancer ce programme : il faut disposer de perl et du module tk de perl.
Outils utilisés
- Un aspirateur
- HTTrack "The web mirror utility", Présentation sur le site des auteurs
- Un mappeur de site
- ASTRA SITE MANAGER from Mercury Interactive
"HTTrack est un aspirateur de sites web. Il vous permet de transférer un site web d'Internet vers votre disque dur, en construisant récursivement toute la structure, récupérant html, images et fichiers du serveur vers votre ordinateur. Les liens sont reconstruits de manière relative, de faÁon à pouvoir browser librement le site local via votre butineur habituel. Vous pouvez transférer (miroir) plusieurs sites ensembles de faÁon à pouvoir passer de l'un à l'autre librement. Vous pouvez également mettre à jour (update) un site existant, ou continuer un transfert interrompu. Le robot est entièrement configurable, avec une aide intégrée. WinHTTrack est la version Windows95/98/NT/2K de HTTrack."
"HTTrack a été développé en C et C++, en approximativement 10,000 lignes de code source. Nous avons dépensé de très, très nombreuses heures à tester et à débugger ce programme, de telle faÁon à ce qu'il soir le plus performant possible. Nous espérons avoir fait du bon boulot"
Interface développée par Xavier Roche et Yann Philippot
Moteur développé par Xavier Roche
JavaParser développé par Yann Philippot
Project original digiré by Patrick Ducrot et Daniel Carré
Projet développé à l'ENSI Caen - ISMRA
Copyright (C) Xavier Roche & Yann Philippot, tous droits réservés.
"Astra SiteManager is a comprehensive visual Web site management tool that is designed to meet the challenges faced by Webmasters of rapidly growing Web sites with changing contents and control. Astra SiteManager scans your entire Web site-highlighting functional areas with color-coded links and URLs-to unfold a complete visual map of your site. It pinpoints broken links or access problems, compares maps as your site changes, identifies key usage patterns for improving Web site effectiveness and validates dynamically generated pages."
Ce programme est disponible (en accès libre sur le site de Mercury Interactive).
Dernière modification le 10.05.2002 par