Googlebot

Définition

Googlebot est le nom générique des robots d’exploration (crawlers) de Google. Ces programmes parcourent le web automatiquement en suivant les liens pour découvrir des pages, télécharger leur contenu et les envoyer vers l’index Google.

Comprendre Googlebot est fondamental pour le SEO technique.

Types de Googlebot

Googlebot Smartphone (Principal)

Utilisé pour l’indexation mobile-first. C’est le crawler principal depuis 2019.

User-agent: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot Desktop

Version desktop pour certains contenus.

Autres crawlers Google

Googlebot-Image : Pour Google Images
Googlebot-Video : Pour les vidéos
Googlebot-News : Pour Google News
AdsBot-Google : Pour Google Ads
APIs-Google : Pour les APIs

Comment Googlebot fonctionne

Processus de crawl

Découverte : Via sitemaps, liens ou URL connues
File d’attente : URLs à crawler priorisées
Téléchargement : Récupération du HTML
Rendu : Exécution du JavaScript
Indexation : Envoi au système d’indexation

Fréquence de crawl

Variable selon :

Popularité du site
Fréquence des mises à jour
Crawl budget disponible
Qualité du contenu

Crawl budget

Définition

Le nombre de pages que Googlebot est prêt à crawler sur votre site dans un temps donné.

Facteurs d’influence

Taille du site
Vitesse du serveur
Qualité globale du contenu
Liens internes efficaces
Pas de pages inutiles

Optimisation

Pages rapides
Pas de contenu dupliqué
Sitemap à jour
robots.txt optimisé

Contrôler Googlebot

robots.txt

User-agent: Googlebot
Disallow: /admin/
Allow: /public/
Crawl-delay: 1

Meta robots

<meta name="robots" content="noindex, nofollow">

X-Robots-Tag

X-Robots-Tag: noindex

Vérifier l’identité de Googlebot

Reverse DNS

Les vrais Googlebots ont un hostname se terminant par googlebot.com ou google.com.

host 66.249.66.1
# Devrait retourner: crawl-66-249-66-1.googlebot.com

Pourquoi vérifier

Des bots malveillants peuvent usurper l’User-Agent de Googlebot.

Googlebot et JavaScript

Rendu JavaScript

Googlebot utilise une version récente de Chrome pour rendre le JavaScript.

Limites

Le rendu consomme des ressources
Peut être différé
Certains JS complexes peuvent échouer

Solutions

Server-Side Rendering (SSR)
Pre-rendering
Progressive enhancement

Diagnostiquer les problèmes

Google Search Console

Rapport de couverture
Statistiques d’exploration
Inspection d’URL

Fichiers de logs

Analysez les logs serveur pour voir quand et quoi Googlebot crawle.

Test de rendu

Utilisez l’outil d’inspection d’URL pour voir ce que Googlebot voit.

Erreurs courantes

Bloquer Googlebot par erreur

# NE PAS FAIRE
User-agent: *
Disallow: /

Serveur lent

Googlebot réduira la fréquence de crawl si le serveur est trop lent.

Redirect loops

Les boucles de redirection empêchent le crawl.

JavaScript non rendu

Contenu invisible si le JS échoue.

Mobile-First Indexing

Depuis 2019

Googlebot Smartphone est le crawler principal pour la plupart des sites.

Implications

Le site mobile est ce que Google indexe
Contenu identique sur mobile et desktop recommandé
Performance mobile cruciale

Conclusion

Googlebot est l’interface entre votre site et l’index Google. Facilitez son travail avec un site rapide, bien structuré, avec un robots.txt approprié et un sitemap à jour. Surveillez son activité via Search Console et les logs pour identifier et résoudre rapidement les problèmes de crawl.

Découvrez Cuik Pro

Cuik Pro, c'est :

Définition

Types de Googlebot

Googlebot Smartphone (Principal)

Googlebot Desktop

Autres crawlers Google

Comment Googlebot fonctionne

Processus de crawl

Fréquence de crawl

Crawl budget

Définition

Facteurs d’influence

Optimisation

Contrôler Googlebot

robots.txt

Meta robots

X-Robots-Tag

Vérifier l’identité de Googlebot

Reverse DNS

Pourquoi vérifier

Googlebot et JavaScript

Rendu JavaScript

Limites

Solutions

Diagnostiquer les problèmes

Google Search Console

Fichiers de logs

Test de rendu

Erreurs courantes

Bloquer Googlebot par erreur

Serveur lent

Redirect loops

JavaScript non rendu

Mobile-First Indexing

Depuis 2019

Implications

Conclusion