III PROBLEMES RENCONTRES :

      

 1- D’abord lors de la recherches des liens sur internet, on s’est rendu compte que la plupart du temps, la totalité des moteurs de recherche qu’on a utilisé nous orientait vers des pages qui exprimais le sens « hydraulique » du terme., donc d’un coté on avait un flux de liens pour un sens et une pénurie de l’autre cote pour les autres sens « sport et routier », chose qui nous a fait penser des fois a jouter un mot clé dernière ou âpres barrage pour avoir les liens voulus. C’était un peu mieux mais pas meilleur car toujours on avait des liens qui traitaient du sens « hydro » qui revenaient souvent.

 

 2- Lors de l’utilisation de la commande « WGET on a remarqué que pas tout les liens enregistrés dans les fichiers texte, étaient aspirées, chose qui est du, à l’extension des pages (html ou pas) 

 3- Lors de la transformation des liens texte en liens hypertexte, et leurs enregistrement dans les tableaux, et après avoir essayé de cliquer sur ces liens. On a remarquer que certains ne marchaient pas, et on avait pas les pages qu’on télécharge au début.

 4- Lors de l’application du script pour dumper les pages, on a remarqué que les pages n’ont pas toutes été dumpé.  On a attribué ca au fait que toute les pages qu’on a téléchargé n’avait pas forcement de texte. En effet certaines sont des pages qui contenaient des images en majorité. Donc on attire l’attention sur le fait que le nombre finale (résultats) de pages dumpées ne soit pas important, ou inferieur au nombre de pages téléchargées au départ