Skip to main content
Algorithme de Google

Grâce à ces documents, la boîte noire s’ouvre un peu…

Ce qui est bien avec les procès antitrust, c’est que de nombreux documents jadis confidentiels deviennent publics. Et quand il s’agit de l’algorithme de Google, boîte noire d’où rien ne filtre, cela devient une formidable ressource pour confirmer ou infirmer certaines hypothèses que les professionnels du SEO émettent.

Que les choses soient claires : ce n’est pas un changement complet de paradigme. Nous sommes souvent confortés dans nos certitudes, basées notamment sur les nombreux tests réalisés par les référenceurs. Cela n’en reste pas moins une source très intéressante, car elle permet de voir de l’intérieur comment Google conçoit son algorithme.

Les interactions avec les utilisateurs

Une présentation PowerPoint datée de 2017 nous en dit un peu plus sur l’impact des interactions utilisateurs dans le classement des sites sur Google. Malheureusement ce document fait partie des plus caviardés, tant le sujet est sensible. Seuls quelques éléments remontent, mais ils constituent déjà une bonne source d’information.

Dans une slide, il est précisé ce que Google appelle les trois piliers du classement. Cette notion ne doit pas être confondue avec les trois piliers du référencement (contenus, technique, netlinking), même si bien sûr nous nous en rapprochons beaucoup.

Pour Google, trois interactions sont déterminantes :

  • Corps : les informations contenues directement dans la page web
  • Ancres : ce que le web dit de cette page, très certainement via le netlinking
  • Interactions avec les utilisateurs : ce que les utilisateurs disent de la page web

C’est ce dernier point qui est le plus intéressant, car il lève le voile sur une composante niée dans le passé par Google lui-même. Son algorithme considère comme interaction tout ce qui est clics, temps passé sur la SERP, survol de la souris, scroll et saisie d’un nouveau mot-clé.

Il est tout de même précisé que les clics seuls sont considérés comme un signal bruyant, c’est-à-dire que cette mesure n’est statistiquement pas suffisamment significative pour être pertinente. Cela explique l’utilisation de nombreuses métriques supplémentaires.

Les critères de classement

Dans un autre PowerPoint, cette fois-ci daté de 2016, Google déclare qu’il ne comprend pas réellement les pages web. Son algorithme est donc conçu pour faire semblant, via des mesures objectives. Et finalement, plus que de regarder le contenu HTML lui-même, il se base sur l’observation des internautes réagissant à ces pages web.

Très logiquement, si une page web suscite une réaction positive, celle-ci est avantagée. Si la réaction est négative, la page est considérée comme mauvaise, et se trouve donc reléguée dans les tréfonds de la SERP. Comme cela fonctionne selon un système d’apprentissage, plus une page web reçoit des interactions, plus Google a une idée précise de celle-ci. Il ne s’agit donc pas de données individuelles, mais par essence collectives.

Schéma de Google sur le dialogue bidirectionnel

Notons toutefois que ce document a 7 ans. C’est une échelle de temps très élevée pour ses algorithmes. Depuis, BERT est arrivé, et il y a certainement eu de nombreuses autres mises-à-jour aidant Google à mieux comprendre le langage naturel. S’il est très probable que ces signaux soient encore utilisés, leur importance est très certainement minorée depuis tout ce temps. Concentrons donc sur ce que nous pouvons contrôler : l’expérience utilisateur et la qualité du contenu.

Ce qui détermine la qualité de la recherche

Au sein d’une présentation de 2018, Google aborde 18 facteurs de la qualité de la recherche. Même si ces points ont sûrement évolué depuis, ils n’en restent pas moins intéressants.

Voici la liste complète des éléments qui selon Google déterminent la qualité d’une recherche :

  • Pertinence
  • Qualité des pages
  • Popularité
  • Fraîcheur
  • Localisation
  • Langue
  • Centralité
  • Diversité thématique
  • Personnalisation
  • Écosystème Web
  • Adapté aux appareils mobiles
  • Équité sociale
  • Optionnalisation
  • Rétrogradation des sites pour adultes
  • Spam
  • Autorité
  • Confidentialité
  • Contrôle utilisateur de la correction orthographique

Certains de ces éléments sont très flous, d’autres sont évidents, mais quelques-uns sont instructifs. Nous voyons bien que nous sommes sur une temporalité différente, avec ce document plus récent que les autres. Il est amusant de constater qu’en 2018 Google considère que les clics ne sont pas des plus pertinents car difficiles à interpréter. Cela contredit la première présentation que nous vous avons décrite, rédigée pourtant seulement un an auparavant.

D’autres informations émergent. Google s’inquiète des tentatives de manipulation des résultats de recherche, qu’il considère comme “continues, sophistiquées et bien financées”. Il est appelé également à faire preuve de la plus grande prudence concernant les informations sur l’algorithme rendues publiques. Google a conscience que toute position officielle sera utilisée contre lui par les référenceurs, chasseurs de brevets et concurrents. Il est ainsi expressément demandé de ne pas parler de l’utilisation des clics en externe.

Google serait-il magique ?

L’emploi de cet adjectif semble un peu surprenant. Pourtant Google l’utilise dans de nombreuses présentations. Mais comme n’importe quel tour de magie, il y a bien évidemment une explication rationnelle derrière celle-ci. Ce mot fait référence au fait que de nombreux processus sont à l’œuvre en arrière-plan, sans que l’utilisateur en ait conscience.

La recherche sur Google ne consiste donc pas uniquement à traiter une requête via ses systèmes de notation et envoyer le résultat à l’utilisateur :

Comment ne fonctionne pas la recherche sur Google

Si cet aspect n’est pas faux, il est trop incomplet pour qu’un moteur de recherche fonctionne correctement. La clé pour être pertinent consiste à envoyer un flux d’information dans le sens inverse, de l’utilisateur à l’algorithme :

Comment ne fonctionne la recherche sur Google

Il est encore une fois clair que pour Google, les interactions et l’apprentissage de celles-ci sont la clé. Plus elles sont nombreuses, mieux elles sont comprises, grâce à la loi des grands nombres. Cela permet d’extraire des modèles à la fois précis et généralistes, que les équipes de notation évaluent. La source de la magie réside donc dans ce dialogue bidirectionnel avec les utilisateurs.

Une autre slide de cette même présentation revient sur les fameux 10 liens bleus de la première page. Concrètement, pour Google ceux-ci sont comme un questionnaire soumis à l’internaute, lui demandant quel résultat est le meilleur. Un clic est considéré comme un vote. L’interface relativement fade des SERP s’explique en partie par ce phénomène : on évite ainsi de détourner l’attention des internautes sur des éléments ne relevant pas de la pertinence des pages suggérées.

L’impact des logs sur le classement

Dans un PowerPoint de 2020, donc relativement récent, Google revient sur l’importance accordée aux logs dans le classement des pages. Les logs peuvent être vus comme un journal qui enregistre des données significatives. Dans notre cas, celles-ci sont relatives au comportement des utilisateurs du moteur de recherche.

On y fait une métaphore sur le partage d’un repas. Chaque personne apporte un plat. Il y a donc une grande variété de mets, que tout le monde peut goûter. Tout le monde y gagne, mais cela induit que chacun joue le jeu. Ce parallèle est fait pour soutenir que Google s’appuie sur une énorme masse de connaissances, apportée par chacun. Si chaque individu génère peu de données, l’ensemble mis bout à bout participe au bénéfice de tous.

L’objectif est donc de traduire le comportement des internautes à travers ces logs. L’exercice est complexe, car ces informations ne reflètent que très difficilement des jugements de valeur explicites. Un travail d’analyse basé sur les statistiques s’impose. Par exemple, si quelqu’un clique sur trois résultats de recherche, nous pouvons en déduire que le classement est mauvais, car il répond difficilement à la requête émise.

Les logs sont considérés comme un point fondamental dans le classement des résultats. Cela joue notamment dans les systèmes d’apprentissage automatique : RankBrain, RankEmbed et DeepRank. Il est dit qu’une part très conséquente des activités de Google se rattache à l’utilisation des logs.

Les débuts de Google BERT

Un dernier document pique notre curiosité, celui-ci datant de 2019. Il y est évoqué BERT, un algorithme majeur dans le traitement du langage naturel. Son objectif est de comprendre les intentions de recherche des internautes, quand celles-ci sont formulées avec des expressions de langage naturel.

Ce simple fait nous démontre déjà que les précédents documents reposent sur des concepts au moins en partie obsolètes. Cette présentation, réalisée un mois à peine avant la présentation de BERT au public, affirme que des améliorations très significatives dans la compréhension des requêtes, des documents et des intentions ont été constatés lors des tests. Mais il est aussi dit que ce n’est que le début d’un grand bond en avant…

Quelles conclusions tirer de tout cela ?

Alors que penser de tout cela ? Est-ce vraiment une révolution, Google est-il devenu un algorithme open source ? La réponse est bien évidemment non. Tout d’abord, il convient de préciser que tous ces fichiers ne sont pas des leaks. Il s’agit d’un matériel transmis par Google au ministère américain de la Justice. Les informations les plus sensibles sont caviardées. Nous voyons aussi que beaucoup de ces documents ont plusieurs années, ce qui est énorme à l’échelle de la R&D chez Google Search.

Pour autant, si nous prenons un peu de recul, nous pensons que cela reste intéressant pour penser votre SEO. Il ne s’agit pas de bouleverser nos méthodes d’optimisation. L’intérêt est plus théorique. Même si les informations sont datées, nous avons la chance de voir comment est pensé l’algorithme par les gens qui le conçoivent. En se rapprochant de la manière de penser des ingénieurs de Google, nous pensons que cela peut étendre notre scope de réflexion, et pourquoi pas déclencher des intuitions plus fines sur les bonnes pratiques à adopter !

Découvrez des articles similaires

Derniers articles

Infos et actualités SEO
ChatGPT et Google

ChatGPT va-t-il remplacer Google ?

Lorsque ChatGPT a fait son apparition le 30 novembre 2022, le monde fut stupéfait par cette chose totalement...

Newsletter