Empêcher involontairement l'indexation de pages
Facteurs ralentisseurs et bloquants
Certains éléments techniques d’un site Internet peuvent empêcher les moteurs de trouver le contenu des pages. Un bot crawle le réseau Internet et se base sur l’architecture des liens hypertextes afin de trouver de nouveaux documents et de revisiter ceux qui ont peut-être été modifiés. Parmi les facteurs bloquants les plus courants on peut citer les URLs complexes et la structure profonde avec un contenu unique minimal. Parfois, les données ne peuvent être trouvées par le bot qui se retrouve littéralement devant un mur.
Facteurs ralentisseurs pour les moteurs de recherche :
- URLs avec plus de 2 paramètres dynamiques, par exemple : http://www.url.com/page.php?id=4&CK=34rr&User=%Tom% (les bots peuvent être peu disposés à crawler des URLs trop complexes parce qu’elles retournent parfois des erreurs pour les visiteurs "non humains").
- Les pages qui contiennent plus de 100 liens vers d’autres pages peuvent donner comme résultat le fait que tous les liens ne soient pas suivis.
- Les pages enterrées à plus de 3 clics de profondeur (3 niveaux de répertoires) depuis la page d’accueil d’un site Web. A moins qu’il n’y ait de nombreux liens externes qui pointent vers ces pages on voit souvent les bots ignorer ces pages profondes.
- Les pages qui demandent un ID de session ou un cookie afin de permettre la navigation (les bots peuvent être incapables de retenir ces éléments bien qu’un navigateur Web le puisse).
- Les pages qui sont construites sous forme de « cadres » ou « frames » peuvent empêcher les bots de crawler le contenu et peuvent aussi provoquer une confusion sur le choix de la page à retourner dans les résultats de recherche.
Facteurs bloquants possibles pour les bots des moteurs de recherche :
- Pages accessibles seulement via un formulaire ou un bouton de soumission.
- Pages qui demandent un formulaire de type “drop down”.
- Documents accessibles seulement via un champ de recherche
- Documents bloqués sciemment viala meta tag “robots” ou le fichier robots.txt
- Pages qui demandent une identification par login et/ou mot de passe.
- Pages qui sont redirigées avant de montrer le contenu (on appelle cela du cloaking, mais l’utilisation de cette technique peut entraîner un bannissement de l’index d’un ou plusieurs moteurs. On appelle ce bannissement le blacklistage).
La clé pour s’assurer que le contenu d’un site est complètement crawlable est de proposer des liens HTML directs vers chaque page que vous voulez faire indexer par les moteurs. Il faut se rappeler que si la page n’est pas accessible (directement ou indirectement) depuis la page d’accueil (point de départ le plus plausible pour un bot) il est probable qu’elle ne sera pas indexée. Un plan du site peut être d’une aide sérieuse pour pallier ce problème.
Retour au sommaire
Note : ce guide est le fruit d'une collaboration entre SEOmoz, AltiRef et 7 Dragons.