package analyseur;
use strict;
use warnings;
use diagnostics;
use utf8;
use Exporter;
our @EXPORT = qw(&tokenize &formatageElementEnXML);
our @ISA = qw(Exporter);
sub tokenize{
#segmenteur rudimentaire sur le français
my $texte=shift;
my $ponctuation=",\?;\.:!\"";
my $separateurGraphique="\(\)\[\]\{\}\'-";
$texte=~s/([ldt])'/$1e /g; # on remet les e tronqués car treetagger ne reconnaît pas ces formes (ex :l')
$texte=~s/([$ponctuation])/\n$1\n/g; # on conserve la ponctuation
$texte=~s/([$separateurGraphique])/\n$1\n/g; # on conserve les séparateurs graphiques
$texte=~s/\s+/\n/g; #toutes les chaines d'espacement deviennent des retour à la ligne
return $texte;
}
sub formatageElementEnXML{
my($type,$lemme,$string)=@_;
return("\t\t<element>\n\t\t<data type=\"type\">$type</data><data type=\"lemme\">$lemme</data><data type=\"string\">$string</data>\n\t\t</element>\n");
}
1;