|
MkCorpus/CorpusPlusBuilder... Module : make Matrice S. Fleury //2001 --------------------------------------- --------------------------------------- 1. Chaîne Lynx dans MkCorpus :
--------------------------------------- --------------------------------------- --------------------------------------- 2. Chaîne Lynx Online Wed Apr 4 11:35:45 CEST 2001 B. Habert
ChaineLynx : Chaîne de traitement de pages HTML vers des traits via lynx
Historique ----------
Bugs et problèmes -----------------
À faire -------
Mode d emploi ------------- 1) Segmentation en mots lynx -dump <page HTML> | NettoieSortieLynx.sh | SegmenteSortieLynxEnMots.sh | PostSegmentationSortieLynx.sh > <un mot par ligne> PageHTML2UnMotParLigne.sh <page HTML> retourne un "mot" par ligne, avec un certain nombre de nettoyages 2) Segmentation en caractères lynx -dump <page HTML> | NettoieSortieLynx.sh | MetEntitesSGMLSurUneLigne |Texte2CaracteresEtBlocsDeCaracteres.pl PageHTML2UnCaractereParLigne.sh <page HTML> retourne un caractère par ligne 3) Passage au format StatWordByFile pour les résultats d'une segmentation (en "mots" ou en caractères) cat <résultat d'une segmentation> | FaitIndex.pl |Index2ItemsStatWordByFile.pl Segmentation2FormatStatWordByFile.sh < <résultat d'une segmentation> Exemple : PageHTML2UnCaractereParLigne.sh EchantillonAu100Eme/cd2-45-Sil-hill.html |Segmentation2FormatStatWordByFile.sh 4) "Enveloppement" des "mots" au format StatWordByFile par les début et fin de fichier StatWordByFile PageHTML2StatWordByFilePourCaracteres.pl Exemple d'appel : PageHTML2StatWordByFilePourCaracteres.pl /mnt/cdrom/ /mnt/cdrom/u2.windsurf_03ht/u2textes/tryin*to.htm 5) "Enveloppement" des "caractères" au format StatWordByFile par les début et fin de fichier StatWordByFile PageHTML2StatWordByFilePourMots.pl Exemple d'appel : PageHTML2StatWordByFilePourCaracteres.pl /mnt/cdrom/ /mnt/cdrom/u2.windsurf_03ht/u2textes/tryin*to.htm 6) Lancement sur Hébergeurs15000PP NB : éventuellement, changer le répertoire d'accès aux données Hébergeurs15000PP au début des scripts a) Par "mots" LancePageHTML2StatWordByFilePourMotsSur15000PPTraitees.sh Installation ------------- 1) Segmentation en mots make html2mots 2) Segmentation en caractères make html2caracteres
|