Notre Blog

Crawl de GoogleBot : tout comprendre à la façon dont Google analyse votre site web

Juil 2022
Webmarketing

Vous avez un site web professionnel pour présenter vos produits et/ou vos services. Vous savez que ce dernier est analysé régulièrement par Google. Le but de la manœuvre : permettre à Google de revoir constamment le classement des sites web dans les SERPs. Autrement dit, c’est cette analyse qui permet l’actualisation du référencement.

Cela étant dit, vous imaginez bien que ce n’est pas une équipe dédiée de Google qui passe ses journées à consulter tous les sites web du monde un à un. Cette mission, le crawling, revient à un robot, le GoogleBot.

Comment fonctionne le GoogleBot ? A quelle fréquence crawle-t-il les sites web ? Est-il possible d’agir pour optimiser l’analyse de votre site internet par le GoogleBot ?

Nos réponses juste ici 👇

Le GoogleBot, cet explorateur du web

À première vue, vous ne ressentez peut-être pas une franche amitié ou sympathie pour le GoogleBot. Ça se comprend : vu que c’est lui qui passe dans les rangs pour effectuer un classement, il fait plutôt penser à un prof intransigeant en période d’examen. Le GoogleBot est même pire qu’une institutrice crispée, lunettes et lèvres pincées, puisqu’il passe et repasse sur votre site web en permanence. Il y a de quoi se sentir harcelé, oppressé. Bref : spontanément, le GoogleBot, on ne l’aime pas trop. En plus c’est un robot, et ça rappelle un peu que l’avenir sera peut-être sous le signe de la puissance de l’Intelligence Artificielle !

Bon, trêve de plaisanterie, et redevenons sérieux. Il y a certaines amitiés qui ne sont pas évidentes au début, mais qui se construisent en apprenant à connaître l’autre et ses véritables intentions. Et en réalité, vous allez voir que le GoogleBot n’est pas votre ennemi mais plutôt l’inverse. En tout cas, dans la mesure où vous jouez les règles du jeu de Google, à savoir : faire de la qualité et ne pas tricher.

Le GoogleBot, un atout pour Google mais pour vous aussi

L’intérêt du GoogleBot pour Google est assez évident : il fait tout le travail et trie les pages qui méritent d’être affichées dans les SERPs ou non.

Car ce qu’il faut savoir, c’est que le GoogleBot ne crawle pas des sites entiers, mais les pages qui le composent. Il va chercher les informations qu’il lui faut dans la page, et permet ou non son indexation dans les résultats de recherche. Google ensuite décidera comment et où les pages crawlées et indexées pourront être consultées : c’est le référencement naturel.

Ainsi, il existe 3 étapes distinctes au référencement de vos pages :

Crawling
Indexation
Classement

Si le GoogleBot rencontre un problème au cours de son crawling, l’indexation des pages sera évidemment impossible. Leur référencement sera donc logiquement pénalisé. C’est ce qui arrive lorsque :

Une page est bloquée dans le fichier robots.txt (nous reviendrons plus bas sur ce fichier)
Une page est en canonical (c’est une page avec un contenu dupliqué ou très similaire à une autre)
Une page est en noindex
Une page répond en code 500, 404, 301, 302

Pour revenir à notre histoire d’amitié, maintenant que l’on sait ce que le GoogleBot n’aime pas, il devient plus facile de lui faire plaisir et de le manipuler pour en faire votre allié 😉

Crawl du GoogleBot : la fréquence et le crawl budget, 2 notions à connaitre

Il ne faut jamais oublier que Google, c’est avant tout une vision très utopique du Web. Personne ne copie l’autre, tout le monde fait de son mieux, personne ne raconte n’importe quoi, bref. On est loin du compte, et Google le sait. Mais son algorithme et le GoogleBot notamment servent à punir ceux qui ne jouent pas le jeu, et à mettre en avant ceux qui font les choses bien.

La fréquence de crawl du GoogleBot

Entre un site et un autre, la fréquence de passage du GoogleBot est très variable puisqu’elle peut être de quelques minutes comme de quelques jours. Bien évidemment, la taille du site web joue un rôle. Mais pas seulement. En fonction de la fréquence de publication de nouvelles pages et de celle de mise à jour des pages qui existent déjà, la fréquence du crawl variera.

Cela veut dire que si vous ne publiez que très peu ou que vous faites des mises à jour de vos pages tous les ans seulement, le GoogleBot aura une fréquence d’exploration des pages de votre site web faible. Et bien sûr, cela est pénalisant pour vous.

Le GoogleBot et le crawl budget

Le crawl budget représente les ressources et le temps d’exploration prédéfinis que Google alloue au GoogleBot pour crawler un site internet.

Savoir que le crawl du GoogleBot est défini par un budget permet aussitôt de penser aux bons réflexes :

Diriger le GoogleBot vers les pages les plus pertinentes parce que optimisées SEO
Éviter que le GoogleBot ne dépense tout son crawl budget sur des pages pas ou peu travaillées d’un point de vue SEO

Comment optimiser l’exploration de vos pages web par le Bot de Google ?

Gestion du ficher robots.txt, indications au Bot via des balises, fichier sitemap.xml, et bien sûr contenu frais et performances techniques de votre site web, il y a plusieurs axes qui permettent d’améliorer le crawling du GoogleBot.

Sans rentrer dans les détails techniques puisque c’est notre travail ( 😉 ), voici nos conseils :

Le fichier robots.txt

Le fichier robots.txt est sans aucun doute le point le plus important pour optimiser le crawl du GoogleBot. Pour faire simple, ce fichier permet de donner des indications au robot, notamment les pages qu’il doit explorer ou non.

Sans indications, le GoogleBot va tout analyser. Une chose qui non seulement va dépenser tout votre crawl budget, mais qui en plus va vous desservir car toutes les pages de votre site ne méritent pas d’être explorées (les pages légales par exemple, ou les pages « mon compte »).

Les balises

En plus du fichier robots.txt, il est possible, via certaines balises, de donner des instructions au GoogleBot. On peut lui dire de bloquer l’indexation d’une page avec le noindex. On peut l’empêcher d’y accéder grâce au nofollow. On peut également contrer l’archivage avec le noarchive.

Le fichier sitemap.xml

Le fichier sitemap.xml est extrêmement important car il va indiquer au GoogleBot la structure de votre site web. Cela lui évitera d’oublier des pages pendant son crawl. C’est une chose qui arrive souvent à cause d’un maillage interne non travaillé.

Le maillage interne

Le maillage interne est un point central dans l’optimisation SEO de votre site internet. Les liens internes sont ainsi essentiels pour guider le robot d’indexation et faire en sorte qu’il n’oublie aucune page importante pour votre référencement.

La création de contenu

Comme nous l’avons dit un peu plus haut, plus vous produisez du contenu frais et qualitatif, plus le GoogleBot passera vous voir ! Et ça, c’est une très bonne chose.

Les performances du site

Un temps de chargement trop long, des images trop volumineuses, un code trop lourd, un site non « mobile-friendly », en bref un site dont les performances techniques laissent à désirer, Google le traduit comme un site où l’expérience utilisateur (UX) n’est pas satisfaisante. Résultat des courses : le crawl budget diminuera, en même temps que vos chances d’être correctement indexé ☹

Bon. Ben… Il serait peut-être temps d’envisager un petit audit de votre site web, histoire de savoir où vous en êtes et quels sont les points à travailler plus spécifiquement ?

crawl, crawl budget, fréquence de crawl, GoogleBot, indexation, référencement, SEO, webmarketing

Partagez cet article !

Nos dernières publications

Les avantages d’un design web épuré : simplicité, performance, UX

Conseils & accompagnement

Les bonnes raisons de miser sur un design web minimaliste

Content marketing : apprenez à utiliser les podcasts !

Webmarketing

Comment utiliser les podcasts comme outil de content marketing ?

Content marketing B2B : utilisez les études de cas !

Webmarketing

L’importance des études de cas dans le content marketing B2B (infographie)