|
MkCorpus/CorpusPlusBuilder... Module : WebFIX WEBFIX Ludovic Tanguy ERSS - Université de Toulouse Le Mirail E-mail : Ludovic.Tanguy@univ-tlse2.fr
WEBFIX est un programme permettant de repérer de nouvelles formes attestées sur le Web en fonction de leur préfixe. Plus précisément, étant donnée une terminaison productive (comme 'ien' ou 'esque' en français, 'esco' en italien, etc.), WEBFIX va interroger un moteur de recherche et repérer des formes nouvelles ayant cette terminaison. Pour éviter le bruit évident d'une recherche trop brutale, WEBFIX a besoin d'une liste de formes attestées, i.e. une liste de mots extraite d'un dictionnaire, la plus étendue possible, sous format électronique. WEBFIX interroge dans la version actuelle le moteur ALTAVISTA, (http://www.altavista.com), un des rares moteurs de recherche permettant les troncatures. Toutefois, étant donné la technologie utilisée par ce moteur, et la masse de données manipulées, WEBFIX a également besoin d'une liste de triplets de lettres possibles à l'initiale des mots recherchés. Une telle liste est fournie avec ce programme pour le français et l'italien.
LICENCE : WEBFIX est diffusé sous la Licence Publique Générale (GPL) et peut être librement diffusé et modifié. Voir les fichiers gpl.txt et gpl-francais.txt
PREREQUIS : Une machine reliée à Internet et sous environnement UNIX (Linux, Solaris, HPUX, ...). Ce programme devrait pouvoir fonctionner sous Windows, mais n'a jamais été testé... Le langage Perl, version 5.005 ou plus. Disponible gratuitement sur http://www.perl.org Les modules suivants pour Perl : LWP::Simple URI (disponibles gratuitement sur http://www.cpan.org) Le lancement de WEBFIX, quelle que soit la terminaison recherchée, prend plusieurs heures, et représente un usage intensif du réseau de la part de la machine sur laquelle il est installé. Il est donc conseillé de le faire tourner de nuit... RESSOURCES : - Liste de formes attestées : Des listes de mots (formes fléchies) sont disponibles gratuitement pour la plupart des langues européennes à l'adresse suivante : ftp://ftp.ox.ac.uk/pub/wordlists/ Si vous disposez de ressources plus riches, vous pouvez les utiliser. Il suffit de placer dans un fichier, dans n'importe quel ordre, les formes attestées. - Liste de triplets : Étant donné un lexique du type précédent, il est facile d'obtenir une liste approximative des triplets de lettres possibles pour une langue. La commande suivante la fournit à partir d'un lexique : cut -c 3 <lexique> | egrep "^..." | sort -u > <fichier-triplets>
UTILISATION : La commande permettant de lancer WEBFIX le plus simplement est la suivante : perl WEBFIX.pl -l <langage> -p <fichier de préfixes> -d <fichier de formes attestées> <suffixe> Le résultat étant assez volumineux, il est conseillé de le rediriger vers un fichier (en ajoutant > <fichier résultat> après la commande précédente). Pendant le déroulement du programme, des informations sont cependant affichées sur le canal d'erreur standard (STDERR). Les options possibles sont les suivantes : -a pour forcer le respect des lettres accentuées dans les préfixes et/ou les suffixes. Ceci ne fonctionne pour l'instant que pour le français et l'italien. Les résultats sont plus restreints, mais vous risquez de perdre des occurrences à cause de l'absence d'accents sur les pages WWW. -m Pour autoriser dans la recherche les termes en majuscules. A utiliser avec précautions, car cette option résulte souvent en une avalanche de noms propres... PRÉSENTATION DES RÉSULTATS : Le format de sortie de WEBFIX devrait se comprendre de lui-même, mais sait-on jamais : Pour chaque préfixe, dans l'ordre du fichier qui les contient : PREFIXE : <xxx> (<nombre de pages trouvées par ALTAVISTA>) ATTESTATIONS : <rappel des formes attestées ayant ce préfixe> <occurrence> <adresse WWW complète> Par exemple (suffixe "ien") : PREFIXE : clé (7) ATTESTATIONS : -clécyen -cléidocrânien -cléidomancien -clémencien cléïdomastoïdien http://www.swissmed.ch/dossiers/nst/NST24.HTM cléïdomastoïdien http://www.vbs-gbs.org/ms/ms9804/ms9804-07-1.htm clétien http://www.conjuguer.fr/fmvm/cyberservice/arret/appclayesnotefactusport.cfm PREFIXE : cli (28) etc.
Une fois la recherche obtenue, il existe un filtre de mise en page des résultats au format HTML, qui permet un plus grand confort de lecture. Pour l'utiliser, tapez simplement : perl fix2html.pl <fichier résultat WEBFIX> > <fichier.html> Vous pouvez ensuite le visualiser avec un navigateur WEB quelconque. ASPECTS TECHNIQUES Pour éviter de passer des semaines à rapatrier des pages, WEBFIX se contente des 20 premières pages trouvées par ALTAVISTA. Toutefois, vous trouverez dans la présentation des résultats le nombre total de pages trouvées. CE nombre est donc en général bien supérieur à celui des attestations présentées par WEBFIX. De plus, de nombreuses pages WWW indexées par ALTAVISTA ont disparu, et ne sont donc pas accessibles pour WEBFIX. Enfin, un même mot, répété dans une même page WWW apparaîtra autant de fois dans les résultats.
LISTE DES FICHIERS FOURNIS : - LISEZMOI : ce que vous êtes en train de lire - WEBFIX.pl : le programme Perl principal - triplets-francais : le fichier contenant les triplets initiaux pour le français. Cette liste a été établie à partir de la nomenclature du TLF - triplets-italiens : idem, mais pour l'italien. - fix2html.pl : programme de mise en forme des résultats de WEBFIX au format html - dico-francais : liste de mots français provenant de ftp://ftp.ox.ac.uk/pub/wordlists/ - dico-italien : idem pour l'italien - gpl.txt : Texte officiel de la licence publique générale (en anglais) - gpl-francais.txt : Traduction non-officielle du précédent texte. BUGS ET AMÉLIORATIONS FUTURES Les principaux problèmes proviennent d'ALTAVISTA. Celui-ci est susceptible de changer le format de ses pages de résultats à n'importe quel moment, et de semer la confusion dans le fonctionnement de WEBFIX. En cas de problèmes répétés (des messages d'erreurs du type "Problème avec ALLTAVISTA"), contactez-moi. Sinon, bien entendu, la qualité des résultats est souvent décevante. Nous avons travaillé, à l'ERSS, sur les suffixations en "ien", "esque", "este", "itude", "at", "erie", etc. Le bruit ramené par ces recherches est impressionnant, et est notamment dû à des fautes de frappe (mots collés dans la plupart des cas). Enfin, il est nécessaire de fléchir soi-même les suffixes, et donc, pour un suffixe comme "ien", de lancer quatre requêtes différentes (ien, iens, ienne, iennes).
|