MKCORPUS PROJECT MKCORPUS PROJECT MKCORPUS PROJECT
MKC Home
 

 

MkCorpus/CorpusPlusBuilder...

Module : make Matrice

S. Fleury

//2001

---------------------------------------

---------------------------------------

1. Chaîne Lynx dans MkCorpus :

 

 

 

 

---------------------------------------

---------------------------------------

---------------------------------------

2. Chaîne Lynx Online

Wed Apr 4 11:35:45 CEST 2001

B. Habert

 

ChaineLynx :

Chaîne de traitement de pages HTML vers des traits via lynx

 

Historique

----------

 

Bugs et problèmes

-----------------

 

À faire

-------

 

 

 

Mode d emploi

-------------

1) Segmentation en mots

lynx -dump <page HTML> | NettoieSortieLynx.sh | SegmenteSortieLynxEnMots.sh | PostSegmentationSortieLynx.sh > <un mot par ligne>

PageHTML2UnMotParLigne.sh <page HTML> retourne un "mot" par ligne, avec un certain nombre de nettoyages

2) Segmentation en caractères

lynx -dump <page HTML> | NettoieSortieLynx.sh | MetEntitesSGMLSurUneLigne |Texte2CaracteresEtBlocsDeCaracteres.pl

PageHTML2UnCaractereParLigne.sh <page HTML> retourne un caractère par ligne

3) Passage au format StatWordByFile pour les résultats d'une segmentation (en "mots" ou en caractères)

cat <résultat d'une segmentation> | FaitIndex.pl |Index2ItemsStatWordByFile.pl

Segmentation2FormatStatWordByFile.sh < <résultat d'une segmentation>

Exemple :

PageHTML2UnCaractereParLigne.sh EchantillonAu100Eme/cd2-45-Sil-hill.html |Segmentation2FormatStatWordByFile.sh

4) "Enveloppement" des "mots" au format StatWordByFile par les début et fin de fichier StatWordByFile

PageHTML2StatWordByFilePourCaracteres.pl

Exemple d'appel : PageHTML2StatWordByFilePourCaracteres.pl /mnt/cdrom/ /mnt/cdrom/u2.windsurf_03ht/u2textes/tryin*to.htm

5) "Enveloppement" des "caractères" au format StatWordByFile par les début et fin de fichier StatWordByFile

PageHTML2StatWordByFilePourMots.pl

Exemple d'appel : PageHTML2StatWordByFilePourCaracteres.pl /mnt/cdrom/ /mnt/cdrom/u2.windsurf_03ht/u2textes/tryin*to.htm

6) Lancement sur Hébergeurs15000PP

NB : éventuellement, changer le répertoire d'accès aux données Hébergeurs15000PP au début des scripts

a) Par "mots"

LancePageHTML2StatWordByFilePourMotsSur15000PPTraitees.sh

Installation

-------------

1) Segmentation en mots

make html2mots

2) Segmentation en caractères

make html2caracteres