Code Perl

module : analyseur.pm

tokenize
formatageElementEnXML

analyseur.pm

package analyseur;

use strict;

use warnings;

use diagnostics;

use utf8;

use Exporter;

our @EXPORT = qw(&tokenize &formatageElementEnXML);

our @ISA = qw(Exporter);

Définitions des fonctions

tokenize

sub tokenize{

#segmenteur rudimentaire sur le français

my $texte=shift;

my $ponctuation=",\?;\.:!\"";

my $separateurGraphique="\[\]\{\}\'-";

$texte=~s/([ldt])'/$1e /g; # on remet les e tronqués car treetagger ne reconnaît pas ces formes (ex :l')

$texte=~s/([$ponctuation])/\n$1\n/g; # on conserve la ponctuation

$texte=~s/([$separateurGraphique])/\n$1\n/g; # on conserve les séparateurs graphiques

$texte=~s/\s+/\n/g; #toutes les chaines d'espacement deviennent des retour à la ligne

return $texte;

}

formatageElementEnXML

sub formatageElementEnXML{

my($type,$lemme,$string)=@_;

return("\t\t<element>\n\t\t<data type=\"type\">$type</data><data type=\"lemme\">$lemme</data><data type=\"string\">$string</data>\n\t\t</element>\n");

}