← Retour au lexique
🎯 SEO Fondamental

Googlebot

Googlebot est le robot d'exploration de Google qui parcourt le web pour découvrir et indexer les pages. Comprendre son fonctionnement est essentiel pour le SEO technique.

Définition

Googlebot est le nom générique des robots d’exploration (crawlers) de Google. Ces programmes parcourent le web automatiquement en suivant les liens pour découvrir des pages, télécharger leur contenu et les envoyer vers l’index Google.

Comprendre Googlebot est fondamental pour le SEO technique.

Types de Googlebot

Googlebot Smartphone (Principal)

Utilisé pour l’indexation mobile-first. C’est le crawler principal depuis 2019.

User-agent: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot Desktop

Version desktop pour certains contenus.

Autres crawlers Google

  • Googlebot-Image : Pour Google Images
  • Googlebot-Video : Pour les vidéos
  • Googlebot-News : Pour Google News
  • AdsBot-Google : Pour Google Ads
  • APIs-Google : Pour les APIs

Comment Googlebot fonctionne

Processus de crawl

  1. Découverte : Via sitemaps, liens ou URL connues
  2. File d’attente : URLs à crawler priorisées
  3. Téléchargement : Récupération du HTML
  4. Rendu : Exécution du JavaScript
  5. Indexation : Envoi au système d’indexation

Fréquence de crawl

Variable selon :

  • Popularité du site
  • Fréquence des mises à jour
  • Crawl budget disponible
  • Qualité du contenu

Crawl budget

Définition

Le nombre de pages que Googlebot est prêt à crawler sur votre site dans un temps donné.

Facteurs d’influence

  • Taille du site
  • Vitesse du serveur
  • Qualité globale du contenu
  • Liens internes efficaces
  • Pas de pages inutiles

Optimisation

  • Pages rapides
  • Pas de contenu dupliqué
  • Sitemap à jour
  • robots.txt optimisé

Contrôler Googlebot

robots.txt

User-agent: Googlebot
Disallow: /admin/
Allow: /public/
Crawl-delay: 1

Meta robots

<meta name="robots" content="noindex, nofollow">

X-Robots-Tag

X-Robots-Tag: noindex

Vérifier l’identité de Googlebot

Reverse DNS

Les vrais Googlebots ont un hostname se terminant par googlebot.com ou google.com.

host 66.249.66.1
# Devrait retourner: crawl-66-249-66-1.googlebot.com

Pourquoi vérifier

Des bots malveillants peuvent usurper l’User-Agent de Googlebot.

Googlebot et JavaScript

Rendu JavaScript

Googlebot utilise une version récente de Chrome pour rendre le JavaScript.

Limites

  • Le rendu consomme des ressources
  • Peut être différé
  • Certains JS complexes peuvent échouer

Solutions

  • Server-Side Rendering (SSR)
  • Pre-rendering
  • Progressive enhancement

Diagnostiquer les problèmes

Google Search Console

  • Rapport de couverture
  • Statistiques d’exploration
  • Inspection d’URL

Fichiers de logs

Analysez les logs serveur pour voir quand et quoi Googlebot crawle.

Test de rendu

Utilisez l’outil d’inspection d’URL pour voir ce que Googlebot voit.

Erreurs courantes

Bloquer Googlebot par erreur

# NE PAS FAIRE
User-agent: *
Disallow: /

Serveur lent

Googlebot réduira la fréquence de crawl si le serveur est trop lent.

Redirect loops

Les boucles de redirection empêchent le crawl.

JavaScript non rendu

Contenu invisible si le JS échoue.

Mobile-First Indexing

Depuis 2019

Googlebot Smartphone est le crawler principal pour la plupart des sites.

Implications

  • Le site mobile est ce que Google indexe
  • Contenu identique sur mobile et desktop recommandé
  • Performance mobile cruciale

Conclusion

Googlebot est l’interface entre votre site et l’index Google. Facilitez son travail avec un site rapide, bien structuré, avec un robots.txt approprié et un sitemap à jour. Surveillez son activité via Search Console et les logs pour identifier et résoudre rapidement les problèmes de crawl.