Introduction
AU COMMENCEMENT...
Nous revoilà pour un nouveau projet, et qui dit nouveau projet dit nouveau rapport dans le but inavoué de tenter vainement d'étaler de la poudre aux yeux. Soit, personne ne s'y trompera, le contenu prévaut le contenant. Mais tentons néanmoins d'offrir une nouvelle direction au fameux contenant, qui soit dit en passant, me laisse un arrière goût amer sur le contenu qu'il contient. Phrases alambiquées mises à part, il s'agit ici d'offrir une meilleure vue d'ensemble, par un découpage presque dichotomyque des différentes étapes du projet, de donner les clefs nécessaires des vérous de la technique, sans s'adonner à outrance à un déballage de vocabulaires obscures et néfastes. Restons honnêtes, cela est plus facile pour celui qui écrit, comme pour celui qui lit.
In Depth
LE VIF DU SUJET
Le support de travail est un corpus, constitué de
fils RSS provenant du journal "Le Monde". Pour expliquer simplement ce qu'est un fil RSS, disons naïvement que ce sont des fichiers au format
XML, qui vous permettent, via un logiciel de flux RSS, d'être au courant des nouveautés de vos sites favoris, pour peu qu'ils proposent ce genre de choses. Cela reste un tantinet flou, je vous l'accorde. Les fils RSS de "Le Monde" contiennent les nouveaux articles parus, et notamment leur titre et une brêve description. Et ce sont ces mots qui vont nous intéresser ici bas. Le projet consiste en plusieurs outils, qui vont permettre de parcourir ce corpus, d'en extraire les titres et les descriptions, d'étiqueter grammaticalement tous les mots, et d'en extraire des patrons. Puis, nous réaliseront un graphe de ces termes regroupés en patron (nom suivi d'un adjectif par exemple), qui présentera la distance entre eux, selon la fréquence des associations. Toujours pas compris je présume ? Pas d'inquiétude, cela vaut pour votre serviteur également...
Automatisation et Environnement
OS ? SYSTEM ?
Les boites à outils 1 à 3 ont été réalisées uniquement sous Linux, avec la distribution
Kubuntu et
mandriva 2007. La version utilisée est la 6.10
edgy mais la beta 7.04
feisty fawn a également été testée avec succès.
Le soucis principal était d'automatiser sans interruptions toutes ces tâches, car il est bien évident que le volume de données à traiter demeure très conséquent. Nous parlons de corpus, non pas d'un couple de fichiers de 100 ko. Les machines utilisées restent des PC sur une architecture x86. Mais cela ne devrait probablement pas posé de problème sur Macintosh. A noter simplement que certaines difficultés furent rencontrées sur un système à base d'émulation comme Cygwin, en particulier vis à vis de Perl.
Ceci est une fiction. Evitez de faire la même chose chez vous. La société EZZAT and co niera toute responsabilité quant à vos agissements. Ce disque s'autodétruira dans 5 secondes...