Dans une discussion récente sur Search Off The Record, Allan Scott, membre de l’équipe Google Search, a abordé un problème particulier appelé « trous noirs maraudeurs » (marauding black holes dans la langue de Larry Page). Ce phénomène résulte des interactions problématiques entre le clustering et les pages d’erreur dans Google Search. Ces « trous noirs » concernent principalement les pages qui renvoient un code HTTP 200 tout en étant, en réalité, des pages d’erreur. En conséquence, elles finissent regroupées par somme de contrôle — une technique utilisée pour identifier des doublons en analysant le contenu des pages — ce qui entraîne un comportement non désiré dans les résultats de recherche.
Origine et explication du phénomène
- Clustering et sommes de contrôle : Allan explique que les pages d’erreur non détectées génèrent une somme de contrôle identique. Google considère alors ces pages comme des doublons et les regroupe dans un même cluster, ce qui les rend moins susceptibles d’être explorées par le robot d’indexation (Googlebot).
- Exemple de Martin Splitt : Martin illustre ce phénomène avec des produits d’un site de commerce en ligne marqués comme « non disponibles ». Ces pages continuent de renvoyer un code HTTP 200, ce qui induit Google en erreur. Le contenu similaire déclenche des regroupements imprévus, créant un « trou noir » dans lequel ces pages tombent et ne sont plus explorées.
Conséquences du phénomène
- Pages exclues de l’exploration : Une fois regroupées comme doublons, ces pages sont ignorées par Googlebot, car elles sont perçues comme inutiles ou non pertinentes.
- Impact temporaire ou permanent : Allan précise que si une erreur est temporaire, cela peut poser problème, car les pages concernées risquent de ne jamais être réintégrées dans l’index. Pour des erreurs permanentes, comme des produits supprimés, cela peut être moins préoccupant.
Scénarios spécifiques
- Erreurs dues aux CDN : John Mueller a mentionné des cas où un CDN détecte Googlebot comme un bot malveillant et renvoie une page erronée. Ces pages finissent également regroupées dans des clusters.
- Tests A/B ou API défaillantes : Martin Splitt évoque des sites testant de nouvelles versions où certaines pages génèrent des erreurs temporaires. Si ces erreurs sont fréquentes, elles entraînent un clustering problématique.
Solutions proposées par Allan Scott
Pour éviter ces « trous noirs », Allan recommande deux approches principales :
Utiliser des codes HTTP appropriés :
- 404 (page non trouvée), 403 (accès interdit) ou 503 (erreur serveur temporaire) doivent être renvoyés pour signaler une erreur.
- Les pages renvoyant un code HTTP 200 sont celles qui posent problème, car elles indiquent à Google que tout est en ordre.
Déclarer explicitement les erreurs :
- Si l’envoi d’un code HTTP est impossible (par exemple, avec du JavaScript), il est préférable d’inclure un message clair indiquant une erreur (comme « erreur serveur »).
Améliorations futures chez Google
Allan souligne que Google travaille sur l’amélioration de ses systèmes pour mieux détecter les pages d’erreur et éviter les regroupements incorrects. Cependant, en attendant ces évolutions, il recommande aux webmasters d’être proactifs et de communiquer clairement leurs intentions via des codes d’erreur appropriés.
Les « trous noirs maraudeurs » constituent un défi pour les sites web qui génèrent des pages d’erreur sans en indiquer explicitement la nature à Google. Ce phénomène met en lumière l’importance de respecter les normes HTTP et de bien gérer les erreurs pour éviter que des pages cruciales ne disparaissent de l’index de Google.