Dans cette partie nous avons travaillé sur les sorties produites en BAO3 par Cordial (format txt) et par Treetagger (format xml). Nous avons souhaité montrer par des graphes, les attirences entre les différents mots à partir des patrons syntaxiques suivants: Nom-Adjectif, Adjectif-Nom, Nom-Prep-Nom.
Pour ce faire, on utilise le programme patron2graphe, l'encodage du fichier d'input (iso-8859-1) et un fichier motif. Chaque recherche s'intéresse à des patrons différents. Les motifs sont spécifiés dans des fichiers texte (chacun contenant un seul motif). L'expression régulière que nous avons utilisée est: \bmotif.
Ci-après le mode d'emploi du programme patron2graphe:
Nos résultats en leur intégralité peuvent être téléchargés ici.
Nous avons testé plusieures variantes:
Patrons Cordial
On disposait de deux types de données textuelles: les premières en format txt, obtenues avec Cordial, et les deuxièmes en format xml, obtenues avec Treetagger. Pour faire nos recherches on a choisi un extrait des fichiers txt de Cordial, quatre fichiers correspondants à la période 2009, et quatre autres à la période 2010. Le but était de pouvoir comparer les résultats obtenus pour chaque période.
- 2009
- Adjectif-Nom Fichier input: Patron_ADJ_NOM_ALAUNE.txt
- Adjectif-Nom Fichier input: Patron_ADJ_NOM_INTERNATIONAL.txt
- Nom-Préposition-Nom Fichier input: Patron_NOM_PREP_NOM_ALAUNE.txt
- Nom-Préposition-Nom Fichier input: Patron_NOM_PREP_NOM_INTERNATIONAL.txt
- 2010
- Adjectif-Nom Fichier input: Patron_ADJ_NOM_ALAUNE.txt
- Adjectif-Nom Fichier input: Patron_ADJ_NOM_INTERNATIONAL.txt
- Nom-Préposition-Nom Fichier input: Patron_NOM_PREP_NOM_ALAUNE.txt
- Nom-Préposition-Nom Fichier input: Patron_NOM_PREP_NOM_INTERNATIONAL.txt
Nous avons choisi les mots "monde" et "pays" et nous avons analysé leurs occurences, d'abord pour les patrons Adj-Nom, et ensuite pour les patrons Nom-Prep. Etant donné la taille de fichiers à analyser on a obtenu des contextes assez diversifiés sur les patrons Nom-Prep du mot "monde" pour l'année 2009, par exemple:"monde de VTT", "monde de football", "monde de cyclisme". Quant à l'année 2010 on a obtenu les mêmes "monde de football", "monde de cyclisme" mais aussi "monde d'escrime", "monde du Champions". Pour les patrons Adj-Nom les contextes sont moins variés et les structures plus réduites.
Patrons Treetagger
On a pris plusieurs fichiers de patrons de Treetagger suivant les formes Nom-Adj et Nom-Prep-Nom. Les rubriques qui nous ont intéressées sont Cinéma, Economie, Planète, Politique, Technologies, Livres.
Afin de ne pas charger trop le site, on ne mettra que quelques résultats sur la page à titre d'exemple. Nonobstant, d'autres sont disponibles au téléchargement ici.