Skip to main content
URL non indexable

Qu’est-ce qu’une URL non indexable ?

Pour optimiser l’utilisation de votre budget crawl et la performance SEO, vous devez présenter aux Google bots des URLs indexables. Hors, dans un site internet, il existe un certain nombre de critères techniques qui peuvent empêcher l’indexation d’une URL.

image urls non indexables en seo

Balise NoIndex dans la page

La balise NoIndex se situe dans la partie <head> du code html. Pour demander à Google de ne pas indexer la page, vous aller utiliser la balise meta robots. Cette balise se structure de la manière suivante :

<meta name = « robots » content= »NOINDEX, NOFOLLOW »>

Il y a donc 2 informations dans cette balise :

  • La directive d’indexation, dans ce cas NOINDEX
  • La directive de crawl, FOLLOW signifie que le bot va suivre les liens pour découvrir d’autres pages. NOFOLLOW va indiquer que les liens ne doivent pas être suivis

Google met à disposition toutes les informations sur la balise Meta pour les robots. Vous avez la possibilité de préciser les comportements pour les différents robots d’exploration existants.

image balise no index dans la pageLa balise Noindex dans la page peut être utile mais elle impacte l’utilisation du budget crawl. Effet, le bot va devoir charger le code html de la page pour découvrir cette balise. La balise NoIndex bloquera bien l’indexation mais consommera du temps de crawl au détriment d’autres pages utiles. Pour l’éviter, vous pouvez utiliser la directive NoIndex directement dans le fichier robots.txt.

Mauvais codes HTTP

Pour pouvoir être indexer, l’URL doit répondre dans un code 200. Hors, un certain nombre d’URLs peuvent ne pas répondre avec le bon code. Elles ne seront donc pas présentées à l’indexation mais consommeront du temps de crawl.

image mauvais codes http

Redirection 301

La redirection 301 est une redirection permanente. Google va donc mettre à jour son index avec la nouvelle URL.

Redirection 302

La redirection 302 est temporaire. Elle permet de donner la consigne à Google de ne pas désindexer l’ancienne URL et de ne pas mettre à jour son index.

Les erreurs 404

Les pages qui répondent en erreur 404 sont les URLs non trouvées. Elles doivent être supprimées car elles dégradent la confiance de Google.

Les erreurs serveur

Les codes 5xx correspondent à des erreurs serveur.

Balise canonical

La balise canonical sert à indiquer à Google la page que vous souhaitez voir indexer. Elle est utile pour limiter le duplicate content interne au sein d’un site. Le duplicate content est un sujet majeur pour les sites e-commerces et les marketplaces. Google cherche à présenter des contenus uniques aux internautes. Google va donc pénaliser les sites dont les contenus sont dupliqués ou trop similaires les uns des autres. Dans ce cas, Google va choisir quelle page il indexe et qu’elle page il n’indexe pas. La balise Canonique permet de préciser à Google la page la plus importante pour vous, celle que vous voulez voir indexer.

image balise canonical

La balise se situe dans la partie <head> du code html. Elle se présente sous la forme :

<link rel= “canonical” href= “url de la page”/>

Chaque url doit avoir une balise canonical. Cette balise peut servir à indiquer une autre page ou faire référence à sa propre url (self refering).

Cette balise est intéressante pour lutter contre le duplicate content. Cependant, elle pénalisera votre budget crawl puisque Google devra charger le code html pour découvrir qu’il doit aller indexer une autre page. Il faut donc qu’il parcourt 2 URLs pour en indexer une.

Les pages non indexables et le budget crawl

Afin d’améliorer la performance SEO de votre site, il est très important d’utiliser au mieux votre budget crawl. Les URLs non indexables polluent la structure de votre site aux yeux de Google. Elles font perdre du temps à l’exploration au détriment de pages qui représentent un potentiel de trafic intéressant. L’optimisation du budget crawl commence donc par une structure de site propre. Après avoir analyser le crawl du site, vous effectuerez un nettoyage des URLs qui posent problème.

image pages no-index et budget de crawl

Découvrez des articles similaires

Derniers articles

Newsletter