Définition
Googlebot est le nom générique des robots d’exploration (crawlers) de Google. Ces programmes parcourent le web automatiquement en suivant les liens pour découvrir des pages, télécharger leur contenu et les envoyer vers l’index Google.
Comprendre Googlebot est fondamental pour le SEO technique.
Types de Googlebot
Googlebot Smartphone (Principal)
Utilisé pour l’indexation mobile-first. C’est le crawler principal depuis 2019.
User-agent: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot Desktop
Version desktop pour certains contenus.
Autres crawlers Google
- Googlebot-Image : Pour Google Images
- Googlebot-Video : Pour les vidéos
- Googlebot-News : Pour Google News
- AdsBot-Google : Pour Google Ads
- APIs-Google : Pour les APIs
Comment Googlebot fonctionne
Processus de crawl
- Découverte : Via sitemaps, liens ou URL connues
- File d’attente : URLs à crawler priorisées
- Téléchargement : Récupération du HTML
- Rendu : Exécution du JavaScript
- Indexation : Envoi au système d’indexation
Fréquence de crawl
Variable selon :
- Popularité du site
- Fréquence des mises à jour
- Crawl budget disponible
- Qualité du contenu
Crawl budget
Définition
Le nombre de pages que Googlebot est prêt à crawler sur votre site dans un temps donné.
Facteurs d’influence
- Taille du site
- Vitesse du serveur
- Qualité globale du contenu
- Liens internes efficaces
- Pas de pages inutiles
Optimisation
- Pages rapides
- Pas de contenu dupliqué
- Sitemap à jour
- robots.txt optimisé
Contrôler Googlebot
robots.txt
User-agent: Googlebot
Disallow: /admin/
Allow: /public/
Crawl-delay: 1
Meta robots
<meta name="robots" content="noindex, nofollow">
X-Robots-Tag
X-Robots-Tag: noindex
Vérifier l’identité de Googlebot
Reverse DNS
Les vrais Googlebots ont un hostname se terminant par googlebot.com ou google.com.
host 66.249.66.1
# Devrait retourner: crawl-66-249-66-1.googlebot.com
Pourquoi vérifier
Des bots malveillants peuvent usurper l’User-Agent de Googlebot.
Googlebot et JavaScript
Rendu JavaScript
Googlebot utilise une version récente de Chrome pour rendre le JavaScript.
Limites
- Le rendu consomme des ressources
- Peut être différé
- Certains JS complexes peuvent échouer
Solutions
- Server-Side Rendering (SSR)
- Pre-rendering
- Progressive enhancement
Diagnostiquer les problèmes
Google Search Console
- Rapport de couverture
- Statistiques d’exploration
- Inspection d’URL
Fichiers de logs
Analysez les logs serveur pour voir quand et quoi Googlebot crawle.
Test de rendu
Utilisez l’outil d’inspection d’URL pour voir ce que Googlebot voit.
Erreurs courantes
Bloquer Googlebot par erreur
# NE PAS FAIRE
User-agent: *
Disallow: /
Serveur lent
Googlebot réduira la fréquence de crawl si le serveur est trop lent.
Redirect loops
Les boucles de redirection empêchent le crawl.
JavaScript non rendu
Contenu invisible si le JS échoue.
Mobile-First Indexing
Depuis 2019
Googlebot Smartphone est le crawler principal pour la plupart des sites.
Implications
- Le site mobile est ce que Google indexe
- Contenu identique sur mobile et desktop recommandé
- Performance mobile cruciale
Conclusion
Googlebot est l’interface entre votre site et l’index Google. Facilitez son travail avec un site rapide, bien structuré, avec un robots.txt approprié et un sitemap à jour. Surveillez son activité via Search Console et les logs pour identifier et résoudre rapidement les problèmes de crawl.