Le rôle du fichier Robot.txt en SEO

Quel est le rôle du fichier robots.txt ?

Le SEO ne fait pas exception au monde du web en général avec ses nombreux anglicismes et son vocabulaire qui peut sembler incompréhensible pour les plus néophytes. Si vous vous intéressez de près ou de loin au référencement naturel, vous avez peut-être déjà entendu parler de ce fameux fichier robots.txt sans pour autant savoir réellement ce qui se cache derrière ce terme.

Pas de panique, on vous explique tout dans cet article : définition, utilité, création du fichier, rôle dans le SEO. Vous saurez tout sur le fichier robots.txt !

Sommaire

Qu’est-ce que le fichier robots.txt ?

Afin de donner des indications sur l’indexation aux robots qui crawlent le web, en l’occurrence les Googlebots sur le moteur de recherche de la firme américaine, le webmaster créé un fichier robots.txt lors du développement de chaque site web. Il se matérialise sous la forme d’un fichier texte, comme son extension l’indique et se place à la racine du site.

Son but ? Définir ce que les robots d’exploration peuvent explorer ou non sur un site web au niveau des pages et fichiers qui s’y trouvent. En pratique, ce fichier comporte les instructions d’exploration qui autorisent ou interdisent certains comportements des user-agents. Il est d’ailleurs l’un des premiers fichiers analysés par un robot lorsque ce dernier accède à votre site pour le crawler.

Ce fichier s’intègre dans le protocole d’exclusion des robots, aussi appelé REP (robots exclusion protocol). Ce protocole sert à établir et répertorier les normes selon lesquelles les robots explorent la toile, parcourent les contenus, indexent les pages et les proposent aux internautes.

À quoi sert-il ?

La vocation première d’un fichier robot.txt est de permettre aux robots, aussi connus sous le nom de spiders ou web crawlers, d’accéder ou non à certains fichiers. En d’autres termes, il sert à gérer le trafic en donnant des directives aux robots concernant l’exploration du site. L’objectif est donc d’optimiser le budget de crawl des robots en les empêchant d’accéder à des pages qui ne sont pas stratégiques et n’ont donc pas de réelle valeur ajoutée pour votre SEO.

Au-delà d’indiquer aux robots les pages et fichiers auxquels ils peuvent accéder, il sert également à interdire l’accès à certains types de robots selon leur provenance.

Autre mission du fichier robots.txt : il indique au moteur de recherche où trouver le fichier sitemap de votre site.

Placé à la racine du site, vous pouvez vérifier sa présence ou son absence d’une façon très simple. Il vous suffit de taper “http://www.urldevotresite.com/robots.txt.” dans la barre de votre navigateur. Si le fichier s’affiche, c’est qu’il est bien présent. Dans le cas contraire, vous verrez une page d’erreur 404. Ceci implique que les robots n’ont pas de directive concernant le crawl de votre site web et qu’ils peuvent par conséquent accéder à la totalité de votre site sans aucune exclusion.

Attention, ce fichier ne sert pas à désindexer certaines pages qui ont déjà été indexées par le passé, mais bien à en éviter l’accès. Ceci implique que les pages et fichiers interdits d’accès sont cependant bien indexés. Pour demander une désindexation, il faut utiliser la balise <meta name=”robots” content=”noindex” /> et/ou recourir à l’outil intégré à la Search Console.

Si le fichier n’a jamais été indexé auparavant, alors il ne le sera pas si le crawl lui est interdit.

Comment créer un fichier robots.txt ?

La création du fichier robots.txt ne peut se faire sans accéder à la racine de votre site.

Pour le créer, deux solutions s’offrent à vous :

manuelle via l’éditeur de texte de votre choix. La syntaxe, les instructions et la structure de ce fichier doivent être suivies à la lettre
automatique : la plupart des CMS intègrent une fonction de création automatique du fichier robots.txt mais vous pouvez tout à fait opter pour des outils en ligne si vous le souhaitez

Concernant les commandes de ce fichier, elles sont au nombre de 3 :

user-agent : ce terme désigne les robots des moteurs de recherche
allow : cette instruction permet d’autoriser l’accès aux robots
disallow : cette instruction sert à interdire l’accès aux robots

Pour comprendre son fonctionnement technique, il faut réfléchir en chemins. Il est possible d’autoriser ou d’interdire l’accès à un simple fichier ou à tout un répertoire.

Pour un site www.example.com on peut considérer que / est le répertoire racine :

si on met allow / alors les robots sont autorisés à accéder à tout ce qu’il y a sur le site
si on met Disallow /img alors les robots ne peuvent pas accéder au dossier www.example.com/img
si on met Disallow /abc.txt, alors on interdit l’accès à www.example.com/abc.txt

Le fonctionnement est identique lorsqu’une requête est faite avec une URL. Par exemple, sur un blog www.blog.com/articles/seo-keywords, si le fichier robots.txt comporte l’instruction Disallow /articles alors le robot ne pourra accéder à aucun article présent sur le blog.

Le robots.txt et le SEO

Lors de l’optimisation SEO du volet technique d’un site, il est important de se pencher sur ce fameux fichier car il remplit plusieurs rôles :

empêcher les contenus dupliqués d’être pris en compte lors de l’indexation et de vous mener par exemple à une pénalité
indiquer au fichier sitemap les différentes URL à indexer
optimiser le budget de crawl de votre site en empêchant les robots d’accéder à des pages qui comportent peu voire pas d’intérêt pour votre score SEO

La phase de test du fichier robots.txt est elle aussi importante car elle vous permet de vérifier que les robots sont bien en capacité d’indexer toutes les URL stratégiques.

Si malgré tout, certaines URL restent bloquées ou au contraire indexées alors que les instructions ont été correctement données, il existe d’autres méthodes pour y parvenir. Vous désirez plus d’informations sur le sujet ? Vous avez besoin des compétences de nos experts SEO pour votre fichier robots.txt ? Contactez-nous !

Qui sommes-nous ?

Notre équipe

Notre agence SEO à Lyon

Accompagnement SEO

Audit SEO

Optimisation itérative

Accompagnement SEO IA

Expert SEO Senior dédié

Refonte / migration

Baisser les coûts d'acquisition

SEO international

SEO local

GEO / GSO

Positionner des mots clés

Sortir d'une pénalité SEO

SEO e-commerce

SEO sites B2B / leadgen

SEO marketplaces

SEO sites média

SEO pour Drupal

SEO pour Prestashop

SEO pour Magento

SEO pour Shopify

SEO pour Wordpress

SEO pour Salesforce CC

Infos & Actus

Glossaire

Webinars

Veille SEO

Livre Blanc

Tout savoir sur le Robots.txt et son utilisation en SEO