Bienvenue !
Objectifs du projet
Mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation.
Ce cours posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction...) et fera appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...).
Ce cours sera aussi l'occasion d'une évaluation critique des résultats obtenus, d'un point de vue quantitatif et qualitatif.
Objectifs du site
Ce site est réalisé dans le cadre du cours "Projet encadré et programmation 2" du M1 Ingénierie Linguistique (Paris III, INALCO, Paris X) et présente la chaîne de traitement effectuée sur un corpus de fils RSS du journal "Le Monde" 2010.
Le but du projet étant d'extraire des informations, correspondant à des patrons syntaxiques particuliers. Les résultats sont présentés en fin de traitement sous forme de graphes de mots.
Ce genre de traitement peut s'avérer utile notamment pour l'extraction terminologique ou encore la fouille de textes et l'extraction de connaissances.
Le travail réalisé peut être découpé en quatre TP ou quatres boîtes à outils, dans lesquelles sont résumés notre démarche de travail ainsi que nos résultats
Langage utilisé
Pour effectuer ce projet, tous nos script on été réalisés en perl
Perl est un langage de programmation créé par Larry Wall en 1987. Il est très puissant et permet notamment de manipuler de façon plus aisée des données textuelles.
Ce langage interprété peut être rapproché du langage C à la différence qu'il n'y a pas de pointeurs, d'allocation de mémoire, etc.. à gérer. Perl signifie Practical Extraction and Report Language. Il intègre la plus grande partie des fonctions d'accès au système UNIX, et reprend des fonctionnalités du langage C et des langages de scripts sed, awk et shell (sh).
Son principal avantage est donc d'être très adapté à la manipulation de chaînes de caractères: conversions, filtrages, copies, découpages, concaténations, etc...