Skip to main content
Contenu dupliqué

Repérer tout contenu dupliqué sur un site est indispensable

Définition

Le duplicate content qui se traduit par contenu dupliqué en Français, est une problématique importante de la gestion SEO d’un site qu’il soit eCommerce, MarketPlace ou Média. En effet, Google comme les autres moteurs de recherches considèrent qu’un contenu intéressant est unique et ne pas gérer ce point vous expose à des pénalités de Google qui peuvent aller parfois jusqu’à la mort du site.

Google nous donne ici sa définition du duplicate content : « Par contenu en double, on entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires ».

Un contenu doit donc être unique sur votre site d’une part mais aussi dans la globalité du web. C’est ici que l’on comprend que travailler ce sujet peut être complexe et va demander un grand nombre d’outils anti duplicate content mais surtout de bonnes compétences analytiques pour éviter le contenu dupliqué.

Par ailleurs, pour rajouter de la complexité et de l’importance à ce sujet, il faut savoir que les « tricheurs » risques gros puisque Google leur a réserver une pénalité nommée Google Panda. Cette pénalité sanctionne parfois très lourdement les sites comprenant un grand nombre de contenus dupliqués. Les sanctions peuvent aller de la dégradation de votre ranking jusqu’à la désindexation complète du site.

C’est ici que le sujet se corse sensiblement car le web comme votre site grandit à une vitesse exponentielle (Plus de deux millions de blogs sont créés chaque jours de par le monde).

Comment éviter le duplicate content ?

La première consigne est de suivre quelques principes de base :

  1. Premier principe et qui est un objectif permanent en SEO :  chaque page de votre site doit cibler de se positionner sur une requête (un mot clef ou un ensemble de mots clefs donnés).
  2. Ne JAMAIS recopier du contenu que vous auriez trouvé sur un autre site.
  3. Si vous êtes un site e-Commerce et que vos fournisseurs vous donnent des descriptions de produits, ne jamais les copier/coller sur votre site sans vous être assuré au préalable que ces contenus ne sont pas publiés sur d’autres sites.

En théorie donc, en suivant ces 3 principes on peut éviter une bonne partie de duplicate content. Cependant dans la pratique, dès lors que votre site grandit (en nombre de page, en nombre de produits, etc….) la théorie devient souvent complexe à mettre en œuvre et surtout le contrôle est complexe.

Imaginez par exemple, que vous vendiez trois versions différentes des mêmes lunettes de soleil.

Imaginez également que vos lunettes de soleil soient présentes dans votre section « Mode » mais aussi dans votre section « Sport »….

Imaginez également que vous ayez produit un très bon contenu et que celui soit copié par un autre site… Il va également falloir piloter le duplicate content externe.

Imaginez enfin que votre site est une marketplace et que 50 personnes aient proposés la même paire de lunette sur les 30 derniers jours…

Dans ce cas, le contrôle du duplicate content interne et externe devient un impératif et nous allons détailler comment procéder ci-dessous.

Comment l’analyser sur votre site internet ?

team work

Il convient d’analyser régulièrement l’unicité de son contenu en interne

Pour cela et dès lors que votre site dépasse quelques centaines de pages, le contrôle manuel devient très fastidieux et l’on a vite fait de passer à côté d’informations capitales.

Pour démarrer, on s’aidera pour cela d’outils tels que Botify ou Oncrawl qui sont des crawlers qui ont entre autres, la particularité d’analyser le taux de duplication de contenus page par page.

Pour débuter, on segmentera le site et le crawler nous remontera le % de NGrams (suite de mots) dupliqué entre les différentes pages et sections du site.

Attention, au jour où nous rédigeons cet article, Oncrawl ne dissocie pas le template du contenu de la page. Il est donc possible que les données remontées par Oncrawl soient partiellement approximatives. Aussi, si votre trafic SEO a une grande valeur pour vous, on recommandera d’utiliser Botify bien qu’il soit vrai que les licences sont 3 à 4 fois plus onéreuses que celles d’Oncrawl.

En croisant cette donnée avec les données de Google Analytics, on pourra avoir une visu précise de l’impact positif ou négatif du taux de duplication sur le trafic des pages.

En effet, Google édite des règles mais reste tolérant et dans grand nombre de cas, un pourcentage de taux de duplication est accepté par son algorithme et n’impacte pas le trafic du site. Autant le savoir avant de se lancer dans la réécriture des pages, ça permet de gagner du temps et donc de l’argent.

Ce n’est qu’après avoir fait cette étude minutieuse que vous pourrez crée un plan d’action précis de déduplication des contenus interne.

Comment corriger le contenu dupliqué interne ?

Comme nous l’expliquions plus haut, la première chose à faire est d’analyser précisément le % de duplication section de site par section de site et surtout l’impact de ce taux de duplication sur votre trafic.

Si l’impact est nul, alors, il est urgent… de ne rien faire ?

Si l’impact est négatif, alors plusieurs solutions s’ouvrent à vous et elles dépendront de la typologie de problème et de page en question.

Le duplicate content des fiches produits

La solution la plus courante est de faire en sorte de ne montrer à Google qu’une seule version de la fiche produit (la plus générique et la plus complète). Pour cela on pourra utiliser différentes méthodes telles que d’obfusquer ces pages au crawl de Google, de passer les pages dupliquées en NoIndex ou de mettre en place des balises canoniques, (attention toutefois à ne pas épuiser votre crawl budget de cette façon), de placer certaines pages dans le robots.txt, etc….

Le contenu dupliqué des pages stratégiques

Alors il conviendra de réécrire tout ou partie du contenu dupliqué. Dans ce cas encore l’analyse du % acceptable de duplication est capital avant de se lancer dans la réécriture de 100 pages de 1000 mots…

Comment analyser le duplicate content externe sur le web ?

On analysera également le duplicate content externe, c’est-à-dire sur l’ensemble du web pour s’assurer que vos équipes de rédactions n’ont pas « volées » du contenus sur d’autres sites mais aussi que d’autres sites ne vous volent pas de contenus.

On s’appuiera pour cela sur un certain nombre d’outils tel que Copyscape ou Copyleaks Plagiarism Checker par exemple.

Ces outils fonctionnent généralement en prenant des échantillons de contenus sur votre site et en allant analyser le % de duplication de ce contenus sur les pages indexées par Google.

Corriger le contenu dupliqué externe ?

Comme nous le voyons plus haut, il y’a deux sources différentes de duplicate content externe :

Vous avez copié un contenu présent ailleurs sur le web

Que vous l’ayez fait de façon consciente ou par mégarde importe peu. La première chose à faire dans ce cas est de contrôler l’impact de cette copie sur votre ranking d’une part et de contrôler que vous n’enfreignez pas de droit d’auteurs.

Si sur le mot clef principal de la page en question votre site ressort en 1er sur Google et vous n’enfreignez pas de droits d’auteurs, alors ne changez rien pour le moment.

Si en revanche, votre ranking est mauvais, il faudra modifier tout ou partie de votre contenus. Comme cette tâche peut être fastidieuse et couteuse, on pourra s’aider de rédacteurs externe en offshore si l’on parle de contenus à faible technicité (des fiches produits par exemples) ou de techniques de content spinning.

S’il s’agit en revanche de page stratégiques pour votre trafic et que ces pages ont un haut niveau de technicité, il faudra probablement les réécrire à la main.

Encore une fois, l’analyse préliminaire vous permettra de gagner un temps précieux sur cette partie.

Un autre site a copié du contenu vous appartenant

Si ce contenu vous appartient (et qu’il a une vraie valeur pour vous). Alors, plusieurs options s’offrent à vous mais nous préférons vous prévenir elles peuvent être longues à mettre en œuvre et ne sont malheureusement pas toujours accompagnées de résultats satisfaisants. Google a parfois ses raisons que la raison ignore.

Première option et souvent la plus efficace, contactez le site qui vous a subtilisé du contenu et demandez-lui (gentiment mais fermement) de le supprimer de son site.

Si la première méthode ne donne pas de résultats en quelques jours, passez à la deuxième étape.

Deuxième étape, déposer une réclamation sur le forum de Google : https://support.google.com

Il vous faudra toutefois être à même de prouver que le contenu initial vous appartenait et Google ne répond pas toujours rapidement ou positivement à ces requêtes.

En cas d’échec des deux premières étapes : il ne vous reste dans ce cas à décider soit de réécrire votre contenu, soit de porter plainte pour plagiat.

La réécriture est dans ce cas souvent et malheureusement la seule option rapide à mettre en œuvre.

Découvrez des articles similaires

Infos et actualités SEO
femme avec une robe très longue

Les requêtes longue traine en SEO

La longue traîne en SEO : un concept essentiel à maîtriser pour optimiser la visibilité de votre site web....

Derniers articles

Infos et actualités SEO
ChatGPT et Google

ChatGPT va-t-il remplacer Google ?

Lorsque ChatGPT a fait son apparition le 30 novembre 2022, le monde fut stupéfait par cette chose totalement...

Newsletter