Le SEO ne fait pas exception au monde du web en général avec ses nombreux anglicismes et son vocabulaire qui peut sembler incompréhensible pour les plus néophytes. Si vous vous intéressez de près ou de loin au référencement naturel, vous avez peut-être déjà entendu parler de ce fameux fichier robots.txt sans pour autant savoir réellement ce qui se cache derrière ce terme.
Pas de panique, on vous explique tout dans cet article : définition, utilité, création du fichier, rôle dans le SEO. Vous saurez tout sur le fichier robots.txt !
Qu’est-ce que le fichier robots.txt ?
Afin de donner des indications sur l’indexation aux robots qui crawlent le web, en l’occurrence les Googlebots sur le moteur de recherche de la firme américaine, le webmaster créé un fichier robots.txt lors du développement de chaque site web. Il se matérialise sous la forme d’un fichier texte, comme son extension l’indique et se place à la racine du site.
Son but ? Définir ce que les robots d’exploration peuvent explorer ou non sur un site web au niveau des pages et fichiers qui s’y trouvent. En pratique, ce fichier comporte les instructions d’exploration qui autorisent ou interdisent certains comportements des user-agents. Il est d’ailleurs l’un des premiers fichiers analysés par un robot lorsque ce dernier accède à votre site pour le crawler.
Ce fichier s’intègre dans le protocole d’exclusion des robots, aussi appelé REP (robots exclusion protocol). Ce protocole sert à établir et répertorier les normes selon lesquelles les robots explorent la toile, parcourent les contenus, indexent les pages et les proposent aux internautes.
À quoi sert-il ?
La vocation première d’un fichier robot.txt est de permettre aux robots, aussi connus sous le nom de spiders ou web crawlers, d’accéder ou non à certains fichiers. En d’autres termes, il sert à gérer le trafic en donnant des directives aux robots concernant l’exploration du site. L’objectif est donc d’optimiser le budget de crawl des robots en les empêchant d’accéder à des pages qui ne sont pas stratégiques et n’ont donc pas de réelle valeur ajoutée pour votre SEO.
Au-delà d’indiquer aux robots les pages et fichiers auxquels ils peuvent accéder, il sert également à interdire l’accès à certains types de robots selon leur provenance.
Autre mission du fichier robots.txt : il indique au moteur de recherche où trouver le fichier sitemap de votre site.
Placé à la racine du site, vous pouvez vérifier sa présence ou son absence d’une façon très simple. Il vous suffit de taper “http://www.urldevotresite.com/robots.txt.” dans la barre de votre navigateur. Si le fichier s’affiche, c’est qu’il est bien présent. Dans le cas contraire, vous verrez une page d’erreur 404. Ceci implique que les robots n’ont pas de directive concernant le crawl de votre site web et qu’ils peuvent par conséquent accéder à la totalité de votre site sans aucune exclusion.
Attention, ce fichier ne sert pas à désindexer certaines pages qui ont déjà été indexées par le passé, mais bien à en éviter l’accès. Ceci implique que les pages et fichiers interdits d’accès sont cependant bien indexés. Pour demander une désindexation, il faut utiliser la balise <meta name=”robots” content=”noindex” /> et/ou recourir à l’outil intégré à la Search Console.
Si le fichier n’a jamais été indexé auparavant, alors il ne le sera pas si le crawl lui est interdit.
Comment créer un fichier robots.txt ?
La création du fichier robots.txt ne peut se faire sans accéder à la racine de votre site.
Pour le créer, deux solutions s’offrent à vous :
- manuelle via l’éditeur de texte de votre choix. La syntaxe, les instructions et la structure de ce fichier doivent être suivies à la lettre
- automatique : la plupart des CMS intègrent une fonction de création automatique du fichier robots.txt mais vous pouvez tout à fait opter pour des outils en ligne si vous le souhaitez
Concernant les commandes de ce fichier, elles sont au nombre de 3 :
- user-agent : ce terme désigne les robots des moteurs de recherche
- allow : cette instruction permet d’autoriser l’accès aux robots
- disallow : cette instruction sert à interdire l’accès aux robots
Pour comprendre son fonctionnement technique, il faut réfléchir en chemins. Il est possible d’autoriser ou d’interdire l’accès à un simple fichier ou à tout un répertoire.
Pour un site www.example.com on peut considérer que / est le répertoire racine :
- si on met allow / alors les robots sont autorisés à accéder à tout ce qu’il y a sur le site
- si on met Disallow /img alors les robots ne peuvent pas accéder au dossier www.example.com/img
- si on met Disallow /abc.txt, alors on interdit l’accès à www.example.com/abc.txt
Le fonctionnement est identique lorsqu’une requête est faite avec une URL. Par exemple, sur un blog www.blog.com/articles/seo-keywords, si le fichier robots.txt comporte l’instruction Disallow /articles alors le robot ne pourra accéder à aucun article présent sur le blog.
Le robots.txt et le SEO
Lors de l’optimisation SEO du volet technique d’un site, il est important de se pencher sur ce fameux fichier car il remplit plusieurs rôles :
- empêcher les contenus dupliqués d’être pris en compte lors de l’indexation et de vous mener par exemple à une pénalité
- indiquer au fichier sitemap les différentes URL à indexer
- optimiser le budget de crawl de votre site en empêchant les robots d’accéder à des pages qui comportent peu voire pas d’intérêt pour votre score SEO
La phase de test du fichier robots.txt est elle aussi importante car elle vous permet de vérifier que les robots sont bien en capacité d’indexer toutes les URL stratégiques.
Si malgré tout, certaines URL restent bloquées ou au contraire indexées alors que les instructions ont été correctement données, il existe d’autres méthodes pour y parvenir. Vous désirez plus d’informations sur le sujet ? Vous avez besoin des compétences de nos experts SEO pour votre fichier robots.txt ? Contactez-nous !