#!/bin/bash
#
# Prépare un fichier d'entrée pour Unitex à partir des urls aspirées.
#  cd /tmp/AleksEtYAnn/pages/mozbot/tir-de-barrage
#  $1 : full path du fichier urls

# Memo: les patterns unitex utilisés sont :
# match de barrage : <match.N><DET><barrage>
# tir de barrage   : <tir.N><DET><barrage>
# barrage sportif  : <faire.V>barrage
# barrage hydro    : <barrage.N>
#

urlfile=$1
cd $(dirname $urlfile)
echo "Processing $PWD"
#
rm -f corpus.txt 2> /dev/null
rm -rf ./corpus_snt 2> /dev/null
mkdir -p ./corpus_snt 2> /dev/null
#
# d'abord du texte, rien que du texte
#
for f in $(cat urls); do
    lynx -dump $(basename $f) | sed -e '/^Références/,$d' >> corpus.txt
done
#
# Branchons Unitex
#
export UNITEX=/home/yan/usr/local/Unitex
export PATH=${UNITEX}/App:${PATH}
export YANTEX=/home/yan/unitex
export YANTEXFR=${YANTEX}/French
#
# pattern unitex : ( le nom du pattern est celui du directory etc.. )
#
pattern=../../../unitex/patterns/$(basename $PWD).txt
if [ ! -f $pattern ]; then
        echo " Erreur : $pattern pas trouvé"
    exit
fi
#
# Allons zi
#
motcle=$(basename $PWD)
moteur=$(basename $(dirname $PWD))

Convert LATIN -ps=OLD corpus.txt
Normalize corpus.txt
phrases=${YANTEXFR}/Graphs/Preprocessing/Sentence/Sentence.fst2
alphabet=${YANTEXFR}/Alphabet.txt
Grf2Fst2 ${YANTEXFR}/Graphs/Preprocessing/Sentence/Sentence.grf $alphabet
Fst2Txt corpus.snt ${phrases} $alphabet -merge
Tokenize corpus.snt $alphabet
Dico corpus.snt $alphabet ${UNITEX}/French/Dela/DELA.bin  ${UNITEX}/French/Dela/motsGramf-.bin
SortTxt ./corpus_snt/dlf -l ./corpus_snt/dlf.n -o ${YANTEXFR}/Alphabet_sort.txt
SortTxt ./corpus_snt/dlc -l ./corpus_snt/dlc.n -o ${YANTEXFR}/Alphabet_sort.txt
SortTxt ./corpus_snt/err -l ./corpus_snt/err.n -o ${YANTEXFR}/Alphabet_sort.txt
cp $pattern ${YANTEXFR}/regexp.txt
Reg2Grf ${YANTEXFR}/regexp.txt
Grf2Fst2 ${YANTEXFR}/regexp.grf $alphabet
Locate corpus.snt ${YANTEXFR}/regexp.fst2 $alphabet l i 200
here=$PWD
pushd ${UNITEX}/App
Concord $here/corpus_snt/concord.ind "Courier new" 12 60 75 CL html ${YANTEXFR}/Alphabet_sort.txt
popd
#    cp ./corpus_snt/concord.html  ../../../result/$(moteur)/$(motcle)/concord.html
#if [ -f ./corpus_snt/concord.html ]; then
#fi
exit