Boîte à outils 3 : Extraction de patrons (suite)
  • Analyse linguistique

Le fichier TT-Cord.doc présente en correspondance les résultats obtenus avec les deux fichiers étiquetés.

Anomalies observées dans les résultats Tree-tagger :

NOM ADJ - les prépositions sont souvent étiquetés comme ADJ (ex. multiples pour, français Selon, médicales de). Un cas particulier avec étiquetage du verbe comme ADJ (Rares sont). Sur les 69 expressions extraites, il ne reste que 55 correctes, après suppression des étiquetages erronés et des doublons.

ADJ NOM - Résultats nettement moins nombreux : 21 expressions, dont 15 correctes.

Anomalies observées dans les résultats Cordial :

Les résultats avec Cordial sont dix fois plus nombreux - 714 expressions pour le premier patron et 486 pour le second. On voit tout de suite que le patron NC[A-Z]+ ADJ[A-Z]+ a extrait les dates (au format samedi 3, jeudi 1er). En ce qui concerne le deuxième patron (486 résultats) lui-aussi, extrait des expressions contenant des chiffres : aux dates (dans un autre format : 2 décembre, 29 novembre) viennent s'ajouter des nombres (430 vols, 400 réfugiés, etc.).




précédent<<suivant>>