LE PROJET
Le principe
Ce projet a pour but de mettre en oeuvre des chaînes de traitement de texte semi-automatiques. A partir d'un mot que nous avons préalablement choisi, plus ou moins complexe, nous avons recueilli un corpus de sites web, afin de pouvoir procéder aux traitements de texte.
Ensuite, nous avons fait appel à des outils informatiques qui nous permettent de récupérer le corpus et pour finir, nous avons organisé notre travail dans plusieurs tableaux.
Notre projet se déroule en 5 étapes:
ETAPE 1: Le choix du mot et ses URLs
Nous avons sélectionné le mot Essence car c'est un mot, qui selon son utilisation, peut changer facilement de signification. Ce mot vient du latin essentia ce qui signifie « nature d'une chose ».
Sachant que nous avions de bonnes connaissances en langues latines (Marco, langue maternelle italien et Elodie diplomée en portugais), nous avons donc décidé de travailler sur trois langues: le français, l'italien et le portugais.
Connaissant les difficultés que nous aurions pu rencontrer pour traduire tous les sens de ce mot dans les autres langues, nous avons d'abord cherché sur des dictionnaires bilingues les différentes traductions.
Nous avons pris conscience que notre travail allait demander beaucoup de temps et d'attention car le mot essence donne lieu à de différentes traductions en fonction du sens, notamment pour l'italien et le portugais. Nous avons entamé notre investigation sur des moteurs de recherche tels que Google, Yahoo, Lycos.
Le mot essence possède plusieurs significations :
en philosophie, l’essence (essenza en italien, essência en portugais) la nature intime d’un être ou d’une chose.
en chimie, les essences (essenza en italien, essência (floral) en portugais) sont des substances volatiles et aromatiques extraites des plantes par distillation.
en pétrochimie, l’essence (benzina en italien, gazolina en portugais) est un hydrocarbure liquide et inflammable utilisé principalement comme carburant.
en sylviculture, l’essence forestière (essenza en italien, cerne en portugais) est une espèce d’arbre apte à produire du bois.
Lors de nos recherches d'URLs, nous avons constaté que le mot essence employé en botanique n'avait pas de traduction propre en portugais et en italien
Par contre les mots essenza (it) et essência (pt) s'utilisent pour un arbre, mais leurs usages est différent. Ils sont admis uniquement si on veut parler de la sève d'un arbre, ou d'un arbre.
Vu le nombre de significations, notre travail commence alors à s'organiser. Nous avons créé un dossier pour chaque langue, dans lesquels nous avons classé par sens nos URLs. Pour le classement par sens, nous avons opté pour des fichiers sans extension, en raison de notre code html.
Nous précisons, par ailleurs, que nous avons écarté les pages en pdf.
A présent, nous avons donc dans notre répertoire de travail une liste d'environ 50 URLs classés par langue et par sens.
PS: La langue portugaise possède deux variantes, de sorte que nous avons choisi celle qui est parlée par le plus grand nombre de lusophones: le portugais brésilien.
ETAPE 2: Aspiration des pages (WGET)
En deuxième lieu, nous avons téléchargé les pages, afin de pouvoir les manipuler localement.
Nous avons aspiré les pages internet et nous les avons stockés dans notre répertoire de travail.
Nous nous sommes rendu compte qu'une fois les pages aspirées, celles-ci se présentaient de manière désordonnée. Par conséquent, il a été nécessaire d'insérer dans notre script la commande mkdir pour que les pages soient classées par langue.
ETAPE 3: Filtrage (dump) de texte brut à partir du corpus (LYNX -DUMP -NOLIST -DISPLAY_CHARSET=UTF8)
Maintenant que nous avons aspiré les pages dans notre répertoire, nous pouvons travailler sur ces pages hors-connexion. Passons alors d'une page web vers un fichier texte. Nous avons utilisé l'option -dump du formidable navigateur LYNX et à l'aide de l'option -display_charset nous l'avons forcé à encoder le texte en UTF-8 pour éviter tout problème.
Le problème d'encodage est un problème récurrent quand on veut filtrer des corpus de textes ayant des caractères diacrités. Effectivement le portugais et l'italien ont des caractères diacrités tels que l'accent aigu, l'accent grave et le tilde.
Bien que les langues étudiées soient parfaitement codifiables avec le jeu de caractères Latin 1, nous avons constaté que la plupart des pages web étaient codifiées en UTF-8. De ce fait, nous avons préféré un codage universel, en imposant l'UTF-8 dans nos codes html et dans nos textes filtrés, ainsi que dans notre script.
ETAPE 4: Recherche du contexte du mot essence (EGREP)
Pour filtrer les mots du corpus, nous avons utilisé egrep et des expressions régulières. Nous avons ajusté nos expressions afin d'obtenir non seulement les occurrences du mot choisi, mais aussi leurs entourages. Cela nous a permis de bien visualiser le contexte d'usage, dans le cadre de la création de nuages de mots (complément ludique). Nous avons filtré aussi certains dérivés de notre mot, en raison de l'emploi fréquent d'expressions telles que huile essentielle, notamment pour ce qui concerne le domaine de la chimie.
ETAPE finale: les tableaux
Il nous était demandé de structurer notre travail sous forme de tableau. Nous avons choisi de faire non pas un tableau mais plusieurs tableaux. Chaque tableau contient une colonne pour les URLs, une pour les pages aspirées, une autre pour les pages dumpées et la dernière pour les contextes filtrés.