Note personnelle : j'ai choisi de
ne pas résumer les passages présentant la linguistique, étant donné que
leur contenu a déjà été vu et revu au cours des trois semestres
précédents. De fait, je me suis concentrée sur les idées nouvelles et
les découvertes que j'ai faites dans cet ouvrage.
Cliquez ici pour télécharger le document.
Problématique : en quoi la capacité de langage est-elle si difficile à programmer ?
→ En raison de la complexité extrême des langues naturelles...
Années 70-80 : systèmes experts → on essaye de ramener le langage à des règles symboliques
Années 90 : méthodes statistiques pour fouiller des textes → émergence de l'ingénierie linguistique
(annonce du plan de l'ouvrage)
1 – Intro : parler est le propre de l'homme. Définition de langue
naturelle vs langue artificielle ou formelle. La linguistique s'occupe
de trouver des universaux à ces 5000 langues différentes naturelles,
l'informatique exploite le traitement automatique de l'information. Au
carrefour, il y a l'application d'une démarche informatique à la
linguistique :
- Quelles sont les données pertinentes et comment les coder ? (avec des éléments discrets, 0 et 1)
- Quels sont les traitements pertinents et comment les coder ? (avec des algorithmes)
En bref, les linguistes identifient les données et
traitements divers que suppose la maîtrise d'une langue, et les
informaticiens tentent de les modéliser : voici le TAL.
2 – Historique
3 – Les niveaux d'analyse du langage : la double articulation semble
être le propre du langage humain. Il y a trois niveaux de composition :
phonèmes, morphèmes et énoncés, associés à deux niveaux de sémantique :
la sémantique lexicale et la sémantique des propositions. « Ce qui
caractérise les langues naturelles, c'est l'ensemble des niveaux de
description et relations présents dans ce schéma ». En effet, le
codage d'informations à partir d'unités discrètes permet des
combinaisons infinies, à la différence du codage analogique.
Mais la double articulation caractérise aussi les
langages informatiques : niveau des règles d'écriture et niveau des
unités lexicales d'un programme. Il y a également une sémantique.
4 – La chaîne de traitements « standard » : présentation d'un
schéma plausible sur le fonctionnement de l'esprit humain selon des
psychologues cognitivistes. Comprendre un énoncé reviendrait à le
convertir en une représentation interne symbolique (→ analyse), et en
produire un reviendrait à traduire une représentation interne en termes
linguistiques (→ synthèse).
Mais il semble plus efficace de se concentrer sur
l'efficacité pragmatique des programmes sans se soucier de la réalité
psychologique des fonctions langagières. On passe donc des modèles
symboliques formels aux modèles statistiques fondés sur l'analyse de
données.
→ présentation des outils et traitements des textes numériques
1 – Description linguistique : brèves présentations de la phonétique,
phonologie et de certains phénomènes suprasegmentaux (tons, accents).
2 – Modélisation informatique : la modélisation de la langue orale
n'est pas l'objectif principal, mais a de nombreuses applications
courantes, en analyse (reconnaissance vocale et transcription
automatique) comme en synthèse (lecture automatique).
Il s'agit globalement de segmenter des données
sonores en phonèmes et de leure faire correspondre des signes
graphiques, ou l'inverse, segmenter des données écrites et leur faire
correspondre des phonèmes. Le problème majeur semble être celui de la
segmentation. Identifier les bons phonèmes, qui peuvent être réalisés
de différentes façon suivant le contexte, le locuteur, etc, se révèle
très difficile. Le contraire, qui consiste à faire les bons
regroupements de phonèmes à partir des mots écrits, n'est pas évident
non plus du fait de l'existence de nombreux homographes et lettres
muettes, des abréviations, de la ponctuation...
Les systèmes d'analyse posent plus de problèmes ; on
tente de les résoudre à l'aide d'outils statistiques. La méthode la
plus performante jusqu'ici est le n-gramme : on calcule la probabilité
d'apparition d'un phonème en fonction de ceux qui précèdent, et de la
probabilité de rencontrer une telle suite dans une langue donnée. Il y
a des logiciels de reconnaissance vocale très performants de nos jours
(Siri).
1 – Description linguistique : brèves présentations des problèmes
posés par la notion de mot, des différents types de morphèmes et de
combinaisons de morphèmes, et de la notion de lemme.
2 – Modélisation informatique : il s'agit de trouver une manière
efficace de stocker l'intégralité des formes fléchies d'une langue. Il
y a deux approches possibles : la structure de données, qui liste des
mots qui se ressemblent, et les automates finis, qui découpent les
unités lexicales en morphèmes et les organisent selon des règles plutôt
qu'en liste. Ils permettent de généraliser l'usage des mots et de faire
des prédictions sur leur forme.
Il y a différentes façon de stocker des données plus
efficacement qu'en listes. Les arbres à lettres permettent aux
ordinateurs d'anticiper les mots que l'on tape, par exemple, mais ne
rendent pas compte de la morphologie.
Un automate fini est constitué d'un vocabulaire fini
V, d'un ensemble Q fini d'états (dont un final et un initial), et d'une
fonction de transition f qui permet de passer d'un mot de Và l'état
initial, à n'importe lequel de ses états finaux. On peut associer à
chaque automate un graphe. Les automates sont particulièrement adaptés
pour modéliser les affixations. Les expressions régulières permettent
de mettre au point des langages aux combinaisons infinies pour les
automates.
1 – Description linguistique : présentation du concept de l'analyse
distributionnelle, supplanté par la notion de grammaticalité,
introduite par Chomsky. Question de la définition des unités analysées
: sont-ce des propositions ? Notion de syntagme, poblèmes rencontrés
avec la structuration arborescente.
2 – Modélisation informatique : voyons dans quelle mesure la
« théorie des langages » en informatique est applicable aux
langues humaines. Pour coder un programme (une grammaire) capable de
trier entre un nombre infini de phrases grammaticales et
non-grammaticales, il faut avoir recours à la récursivité (capacité
d'une chose à se répéter indéfiniment à l'intérieur d'elle-même, de
faire des « boucles »). Des automates finis peuvent permettre
de décrire de petites portions du français.
Cependant, toute la grammaire du français ne peut
être représentée par un énorme automate fini, pour trois raisons : 1)
Pinker montre qu'un automate fini serait redondant (en français ou en
anglais), du fait que certaines structures syntagmatiques identiques
puissent se trouver dans des positions syntaxiques différentes :
l'automate serait forcé de les répéter, ce qui intuitivement s'éloigne
d'une modélisation de l'esprit humain. 2) les automates ne peuvent pas
produire de structures arborescentes convenables. 3) le théorème dit
« lemme de pompage » de Chomsky, qui donne une limite
rigoureuse aux automates finis : ils ne peuvent décrire les
propositions relatives enchâssées.
Formalismes plus puissants : les réseaux de
transitions récursifs (RTR) sont des ensembles d'automates qui
répondent à l'argument de Pinker, qui rendent compte des structures
arborescentes et qui peuvent permettre de décrire des
propositions relatives enchâssées, mais ils ne sont plus vraiment
utilisés depuis les années 80.
Les grammaires formelles sont constituées de quatre
éléments : V le vocabulaire terminal, N le vocabulaire non-terminal, S
la grammaticalité, P les règles de production. G = (V, N, S, P)
Exemple :
V = {le, la, chat, souris, dort, mange}
N = {S, GN, GV, Det, Nom, Vtr, Vintr}
P = {S →1 GN GV, GN →2 Det Nom, GV →3 Vintr, GV →4
Vtr GN, Det →5 le, Det →6 la, Nom →7 chat, Nom →8 souris, Vintr →9
dort, Vtr →10 mange}
Les langues naturelles appartiendraient à une classe intermédiaire
entre type 1 et type 2 : les grammaires « légèrement sensibles au
contexte ».
Autre type de formalisme : les grammaires
minimalistes sont des modèles lexicalisés avec deux règles (fusion et
déplacement), qui reposent sur l'hypothèse que certaines constructions
syntaxiques sont le résultat de déplacements de constituants qui
laissent des « traces », ce qui influerait sur l'ensemble de
la phrase.
Copyright Lath' 2012, tous droits réservés /o/