PC-patr

CPC-patr est un logiciel d'analyse syntaxique créé par le SIL (Summer Institute of Linguistics). Il est capable d'analyser une phrase quelconque qui lui est soumise sous forme d'arbre syntagmatique. Nous avons eu accès à une version de démonstration de PC-patr, ne comprenant qu'un petit lexique basique ainsi que les règles d'analyse des phrases les plus simples. A nous de compléter le logiciel en introduisant nos propres règles d'analyse syntaxique et en augmentant le lexique selon nos besoins.
Notre démarche était guidée : nous connaissions les étapes de travail, et toutes les informations concernant le fonctionnement du logiciel nous étaient fournies. Nous avions simplement à appliquer, et à mobiliser nos connaissances de linguiste concernant l'analyse syntaxique afin de rendre ce savoir utilisable de façon automatique, ce qui est l'essence même du traitement automatique des langues.

Voici comment se présente l'interface de PC-patr. Le logiciel lui-même interagit avec un fichier de lexique et un fichier de grammaire sur lequel nous apportons nos modifications. Vous pouvez consulter en lien mes propres fichiers :
Grammaire (attention, si vous téléchargez le fichier, ouvez-le avec un logiciel de type notepad++. Si vous l'ouvez avec le bloc-note, il sera illisible.
Lexique

Avec cette grammaire, PC-patr est capable d'analyser les phrases de type sujet-verbe-complément. Il peut analyser les compléments d'objet directs et indirects, mais pas les compléments circonstanciels, ni les verbes à deux compléments. En ce qui concerne les extensions du groupe nominal, il est capable d'analyser les adjectifs antéposés ou non ainsi que les groupes prépositionnels. Ainsi "Le frère de la mère du petit chien mange un glace à la fraise." n'a aucun secret pour cette grammaire, aussi longtemps que tous les termes sont renseignés dans le lexique. (ce qui, en l'occurence, n'est pas le cas de "fraise")

Côté lexique, les mots sont triés par partie du discours : déterminants, noms, adjectifs, verbes... Il n'est pas possible d'intégrer une flexion automatique "par défaut", qui indiquerait par exemple que sauf indication contraire, à partir d'une forme X au masculin singulier on a une forme Xs au masculin pluriel. De ce fait, chaque forme renseignée pour les noms, les adjectifs et les déterminants est renseignée sous une entrée différente pour chaque flexion : masculin singulier, masculin pluriel, féminin singulier et féminin pluriel.

Pour construire la grammaire, l'un des points essentiels à faire respecter est le respect des contraintes d'accord. A chaque niveau d'analyse il est nécessaire d'imposer l'accord entre les différents termes. Il faut également faire attention à quelles sont ces contraintes : le sujet et le verbe doivent être accordés en nombre, mais pas en genre par exemple.

L'une des difficultés principales que nous avons rencontré est la gestion des prépositions contractées. En effet, selon notre documentation, il est impossible pour PC-patr d'analyser réellement un élément contracté comme deux éléments. Par exemple, dans la phrase "La fille va au pré.", "au" est la contraction de "à+le". On le prouve en passant l'objet au féminin, là où la contraction est impossible : "La fille va à la plage." Puisque cette analyse n'est pas possible tel quel pour le logiciel, il nous a fallu passer par des chemins détournés.

Pour ce faire, plusieurs solutions étaient possibles. Dans ma grammaire, on considère deux niveaux d'analyse pour les groupes nominaux : GN2 désigne un groupe nominal complet, composé de déterminant + GN1. GN1 est un groupe nominal de niveau intermédiaire, comprenant le nom tête et ses extensions. Ensuite, il a suffit d'indiquer que les prépositions contractées comme "au" se combinent uniquement avec un GN1, donc sans déterminant, alors que les prépositions ordinaires de type "à" se combinent avec un GN2 complet, avec déterminant. De cette manière "au pré" est correct, ainsi que "à la plage" mais pas "au la plage" ou "à plage". L'essentiel était fait. Quelques contraintes d'accord supplémentaires ont été nécessaires pour empêcher les structures telles que "au plage" ou "à le pré" d'être acceptées, et le problème des prépositions contractées était réglé.

Cette grammaire gère également d'autres problèmes qu'il serait inutile de détailler ici. Par exemple, le choix de la préposition dans les groupes prépositionnels objet. (on va à la plage, et pas de la plage ou pour la plage.) Certains problèmes en revanche n'ont pas été traités, de sorte que de nombreuses phrases restent obscures pour cette grammaire, notamment les phrases complexes, les verbes à deux ou trois compléments, les compléments circonstanciels, les groupes nominaux coordonnés... Mais ce cours n'était qu'une "initation" au TAL, et il nous reste encore beaucoup de choses à découvrir.