Accueil    |     BAO 1     |     BAO 2     |     BAO 3     |     BAO 4     |     Contacts
BAO 4


Objectif

Pour finir, nous nous aiderons des résultats obtenus dans les premières boîtes pour créer des graphes.

  • Nous avons tout d'abord commencé par les graphes des fichiers non étiquetés puis ceux de toutes les extractions NOM-NOM, NOM-ADJ, NOM-PREP-NOM, sans MOTIF. Notre but est de répérer les mots qui se lient le plus entre eux, ou pourquoi un mot sera connecté à tel autre . Ce repérage nous permet ensuite de choisir des motifs, à savoir les mots-clefs sur lesquels on veut travailler.



    Nous avons eu recours au programme patron2graph.exe suivi de l'encodage puis du fichier.txt


    Résultats

  • CORDIAL
    MédiaGraphe Nom Nom
    Graphe Nom Adj et Adj Nom
    Graphe Nom-Prep-Nom
    CultureGraphe Nom Nom
    Graphe Nom Adj et Adj Nom
    Graphe Nom Prep Nom


  • TREETAGGER
    MédiaGraphe Nom Nom
    Graphe Nom Adj et Adj Nom
    Graphe Nom-Prep-Nom
    CultureGraphe Nom Nom
    Graphe Nom Adj et Adj Nom
    Graphe Nom Prep Nom
    On remarque que pour Cordial, les années écrites sous la forme AAAA ainsi que tous les chiffres écrits numériquement sont des noms, mais pas pour TreeTagger .. Cependant, Treetagger note "cinq" comme étant un nom . On remarque également que pour Treetagger "M." est considéré comme étant un nom, et pas pour Cordial .

    Au niveau des noms-adj, il y du avoir certains problèmes au niveau de l'étiquetage, si on regarde certains résultats avec Cordial on trouve la forme "le plus" , donc le déterminant aurait été mal interpreté (on trouve cette erreur avec treetagger également).



    Ensuite, on a approfondi notre étude en se basant sur des motifs. On a pris en entrée les fichiers étiquetés NOM-ADJ. Après avoir créé les graphes sur les patrons NOM NOM sur Cordial et Treetagger, on a choisi les MOTIFS qu'on a jugé être les plus pertinents pour obtenir de beaux graphes .

  • CORDIAL
    MédiaMotif: américain
    Motif: chaîne
    Motif: publi*
    Motif: esthetique
    CultureMotif: français
    Motif: music*
    Motif: histo*


  • TREETAGGER
    MédiaMotif: américain
    Motif: chaîne
    Motif: publi*
    CultureMotif: français
    Motif: music*
    Motif: histo*


    L'étoile signifie ici n'importe quel caractère qui suit. Dans notre fichier motif.txt, nous avons spécifié ce que nous cherchons. Les Motifs à extraire ne s'écrivent pas sous formes d'expressions régulières comme celle-ci: ^publi*, ce qui ne donne rien comme résultat.
    Avec patron2graph le motif à extraire peut s'écrire sous cette forme.
    MOTIF=public MOTIF=\bpubli
    Dans l'exemple ci dessus, on a voulu extraire les formes du mot public (public, publique, publics, publiques). On a dû, pour prendre toutes ces formes, écrire "publi". Les résultats nous ont étonnés car patron2graph a aussi extrait, d'après le motif, le mot publicitaire .

    Ce qui est amusant, si on compare les graphes c'est qu'ils peuvent nous permettre de comparer les outils . C'est flagrant à quel point on a bien plus de réponses par TreeTagger que par Cordial ! On remarque -et heureusement- que les graphes trouvés en utilisant TreeTagger sont généralement les mêmes que ceux trouvés par Cordial, mais avec plus de résultat . Par exemple dans la rubrique "médias" , avec le motif "chaîne" on trouve chez Cordial uniquement "chainî privée" alors que par TreeTagger on obtient en plus "chaîne cryptée", "chaîne publique", "chaîne thématique", "chaîne unique", "chaînes publiques" .

    Le Trameur

    Pour finir, nous avons soumis notre fichier texte (BAO1) au trameur. Il est capable d'étiqueter un corpus et de faire des graphes. Voir Le Trameur.
    Exemple de graphe avec le trameur [cliquez sur le nom du motif]
  • MOTIF=groupe

  • MOTIF=de

  • MOTIF=à



    Retourner en haut de la page
  • Copyright © 2009 Cécile Darmé & Elodie Nijean