15/6/2020

Qu'est-ce que le budget crawl ?

Le budget crawl, également appelé le budget d'exploration, n'a pas de définition stricto sensu proposée par Google. Il s'agit, pour faire simple, de l'effort que Google va faire pour crawler et indexer votre site. En effet, lorsque l'on met son site en ligne ou que l'on fait une mise à jour, Google ne va pas nécessairement le crawler tous les jours de lui-même. 

Pourquoi un budget crawl ?

Mettons-nous à la place de Google un instant : chaque jour, des milliers de pages web s'ajoutent sur Internet. Depuis 30 ans, nous avons une tendance qui ressemble à s'y méprendre à une courbe exponentielle en nombre de sites. Nous devrions en compter bientôt près de 2 milliards !

Donc évidemment, cela fait beaucoup de concurrences, mais aussi énormément de travail pour Google ! Il doit non seulement crawler, analyser, puis trier, afin de proposer la meilleure réponse à l'intention de recherche de l'internaute ...

On peut donc supposer, de manière très prosaïque, que cela a un véritable coût matériel et en énergie pour la firme. Il est donc normal que Google évalue ses coûts vis à vis des webmasters et définissent un cadre dans lequel les crawlers interviennent sur un site. 

Par conséquent, Google a donné quelques indications sur la manière "d'optimiser" le budget crawl en tant que webmaster. C'est une manière aussi pour l'entreprise d'optimiser son investissement dans le crawl du web. 

Comment optimiser le budget crawl ?

Pour optimiser son budget crawl, autrement dit le nombre de fois que Google va passer sur votre site, il y a un ensemble de signaux à transmettre afin de l'inciter à revenir. Officiellement, pour Google, la plupart de ces signaux sont un signe de bonne santé, de qualité, et de respect des serveurs des webmasters ... mais sans nul doute aussi un bon rapport coût par crawl !

Faire un site qui répond rapidement

Le temps, c'est de l'argent !

Premier critère qui plaira à Google : le temps de réponse de votre site au passage du Googlebot, le robot qui indexe vos pages. Plus les pages répondent rapidement, plus le Googlebot sera enclin à en analyser davantage. En effet, nous avons parlé de 2 milliards de sites web, mais c'est certainement plusieurs centaines de milliards (ou milliers de milliards !) de pages à indexer régulièrement. Pour caricaturer, chaque milliseconde de gagner pour le Googlebot n'est pas du luxe. Par ailleurs, bien entendu, un site rapide est aussi le signe d'une bonne expérience utilisateur. Mais pas que. 

Il est en effet important de distinguer les différentes visions de la performance. Les statistiques Web Vitals par exemple vont avoir une appréciation très centrée sur l'utilisateur. Le Googlebot quant à lui va regarder une statistique plus primaire : le TTBF.

Qu'est-ce que le Time To First Byte ? (TTBF)

Il s'agit du temps entre la première requête envoyée par le client (par exemple un navigateur web) et le renvoi du premier octet par le serveur. Plus ce temps est court, plus le Googlebot effectuera rapidement son travail pour analyser le contenu d'une page. 

Cette statistique est d'ailleurs disponible dans la Google Search Console, dans l'onglet Anciens Outils et Rapports -> Statistiques sur l'exploration

Bien que les 2 critères ne soient pas toujours directement corrélés, j'ai pu observer une courbe inversement proportionnelle entre la vitesse de chargement d'un site d'un côté et le nombre de visites de l'autre sur 3 mois.

Baisse du temps de téléchargement d'une page
Augmentation globale du traffic

Pour réduire le TTBF, de nombreuses solutions sont possibles que je vous partage dans la rubrique Performance !

Allez à l'essentiel

Le Googlebot est un robot qui explore les liens hypertextes. Cependant, il existe des structures de sites où ces liens hypertextes peuvent être infinis ou extrêmement nombreux : les calendriers, les facettes de résultat de recherche, les boucles infinies, etc. 

Il est donc très important de s'assurer que le Googlebot ne passe que sur des pages vraiment importantes pour l'internaute. Cela signifie également qu'il faut éviter:

  • les pages à faible contenu / faible valeur ajoutée
  • les erreurs 404 !
  • les pages doublons
  • les pages piratées
  • etc.

Globalement, tout ce qui peut faire perdre du temps au Googlebot risque de pénaliser votre budget crawl : Google ne reviendra pas rapidement vous revoir...

Les back-links

C'est un peu injuste pour celles et ceux qui se lancement. Malheureusement, le Googlebot suit les liens hypertextes. Donc mécaniquement, plus il y a de liens qui pointeront vers votre site, plus Google reviendra "par la force des choses" consulter votre site web. 

Et si, entre deux passages, il constate du contenu frais et mis à jour, il n'en sera que plus satisfait !

Quid des liens nofollow ? 

Google n'est pas très clair à ce sujet. Vraisemblablement, les liens nofollow sont susceptibles d'être suivis par le moteur, même s'ils ne sont pas directement pris en compte dans l'algorithme de pertinence. Dans tous les cas, il faut donc être prêt à respecter le Googlebot !

Conclusion

Il ne faut pas faire du budget crawl un élément central de sa stratégie SEO. Cependant, il est important à prendre en compte dans la création et de le développement de son site, en garantissant une vitesse de chargement optimale et du contenu de qualité !

Aller plus loin

Passez votre SEO au niveau supérieur !

Inscrivez-vous à notre newsletter et recevez 2 astuces SEO exclusives chaque semaine. Uniquement pour celles et ceux qui veulent faire décoller leur référencement !
Garanti sans spam!