crawl budget

Qu’est-ce que le Crawl Budget ?

Les sites web qui possèdent plusieurs milliers de pages se heurtent à un problème de taille lorsqu’il s’agit de se référencer sur Google : le crawl budget, soit la limite que les robots de Google pourront explorer afin de les référencer. Si c’est votre cas, lisez cet article : vous apprendrez comment optimiser votre crawl budget afin de mieux référencer votre site web !

Définition du Crawl budget

Le « crawl budget » ou budget d’exploration désigne le nombre de pages maximum que le robot d’indexation de Google (Googlebot) pourra explorer sur votre site web. 

En effet, les moteurs de recherche sont dotés de robots (« bots ») qui explorent en continu les sites Internet pour les classer dans les pages de résultats : on dit qu’ils « crawlent » les sites Internet. Mais cette exploration a des limites : le robot ne pourra pas se plonger dans les quelques centaines de pages que compte chaque site Internet du monde entier ! La limite de pages qu’il pourra explorer est donc le fameux budget d’exploration. 

Le crawl budget alloué à votre site web dépend de plusieurs facteurs, comme le nombre de pages de votre site, le nombre de clics, la fréquence des mises à jours, la vitesse de réponse du serveur, la profondeur de la page crawlée, ou encore la qualité du contenu de votre site web. Plus ces facteurs seront optimisés, plus le Googlebot vous attribuera un crawl budget élevé (car moins il passera de temps sur une seule page), et donc, plus vous aurez de chances de vous placer dans les premières pages de résultats – voire dans les premières positions. 

Comment est défini le crawl budget ?

Plus concrètement, le crawl budget attribué à un site web dépend de 2 variables :

  • Le « crawl limit » ou « host load », qui définit quelle quantité de crawling le site peut encaisser ;
  • Le « crawl demand », qui définit les URL qui seront les plus intéressantes à crawler une seconde fois. Il s’agit notamment des URL populaires (avec un grand nombre de clics ou de visites), ou celles qui sont régulièrement mises à jour.

Le Googlebot va donc repasser plusieurs fois sur les pages pour mieux les explorer, ce qui consomme du crawl budget. Mais attention, il ne va pas le faire pour toutes les pages ! Il choisira seulement ceux qui lui semblent intéressantes, en fonction des critères suivants :

  • Le temps de réponse du serveur : plus le serveur est rapide, plus le Googlebot pourra explorer rapidement les différentes pages. En plus, Google considère qu’un site dont le temps de réponse est rapide améliore l’expérience utilisateur, il sera donc mieux classé. 
  • La fréquence de mise à jour du site : un site régulièrement mis à jour est plus souvent crawlé qu’un site qui ne change pas. 
  • La profondeur de la page : plus il y a de clics pour atteindre une page depuis la page d’accueil du site, moins la page aura de chances d’être crawlée.
  • La qualité du site web : plus Google considère que le site est de bonne qualité, plus il sera crawlé régulièrement.

Dans le délai que Google se fixe pour crawler chaque site, le site dont les pages sont les mieux optimisées sera donc plus crawlé que les autres, et aura plus de chances de ressortir dans les résultats de recherche !

Pourquoi le crawl budget doit-il être pris en compte dans une stratégie marketing ?

Le crawl budget est important car le crawl permet d’indexer vos pages, c’est-à-dire de les classer dans les résultats de recherche. Si vous n’optimisez pas votre crawl budget, le robot de Google va crawler moins de pages et vous serez donc moins bien référencé. 

En plus, il est important de référencer ses pages rapidement après mise en ligne ou mise à jour. En effet, le référencement naturel est un processus très long et plus vous vous y prenez tôt, moins vous perdrez de temps. 

Il est donc particulièrement important de ne pas gaspiller du crawl budget sur des pages qui ne sont pas intéressantes pour votre référencement. 

Comment optimiser son budget crawl ?

Pour optimiser votre budget crawl, plusieurs actions sont possibles.

L’une des plus importantes est l’optimisation de la vitesse de chargement de votre page. Cela se fait dès la création de votre site, en choisissant un bon service d’hébergement web. Autrement dit, ne lésinez pas sur le budget car les gains compenseront largement l’investissement de départ ! Evitez ainsi de choisir un hébergeur web qui propose des  serveurs mutualisés, c’est-à-dire des serveurs sur lesquels plusieurs sites web sont hébergés, car les performances s’en ressentiront. 

Si vraiment vous n’avez pas le budget pour choisir un serveur dédié, alors vous pouvez utiliser d’autres astuces : vous servir du cache pour limiter le nombre d’éléments à charger pour l’utilisateur à chaque visite sur votre site ; compresser le code CSS, HTML et Javascript pour limiter le nombre de requêtes générées ; optimiser la taille de vos médias (vidéos, images) en les hébergeant ailleurs que sur votre serveur (par exemple, YouTube ou Vimeo)… 

L’étape suivante pour optimiser le crawl budget est de travailler le maillage interne de votre site web : les pages que vous souhaitez référencer en priorité doivent être les premières accessibles, et les pages que vous ne souhaitez pas forcément référencer seront au bas de l’architecture du site. Vous pouvez utiliser le sitemap (via l’installation d’un plugin sur WordPress) pour faciliter les choses. Les pages que vous ne souhaitez pas du tout référencer pourront être signalées à Google via un fichier robots.txt (fichier qui donne des instructions au Googlebot). 

Enfin, pensez à régulièrement mettre à jour votre site web. Une astuce est d’utiliser un blog entreprise pour ne pas avoir à changer le contenu du site vitrine tout le temps. Le contenu publié doit, bien sûr, être de qualité pour que Google le considère comme pertinent pour les utilisateurs et qu’il décide de le crawler plusieurs fois.