Définition
Le crawl (exploration) est le processus automatisé par lequel les moteurs de recherche découvrent et analysent les pages web. Le crawler (robot d’exploration, spider, bot) est le programme qui effectue cette tâche. Pour Google, c’est Googlebot.
Sans crawl, pas d’indexation. Sans indexation, pas de présence dans les résultats de recherche.
Comment fonctionne le crawl
Le processus de base
- Découverte : Le crawler trouve une URL (via un lien, un sitemap, ou une soumission directe)
- Requête : Il envoie une requête HTTP pour récupérer la page
- Analyse : Il lit le contenu HTML, les ressources (CSS, JS, images)
- Extraction : Il identifie les liens vers d’autres pages
- File d’attente : Les nouvelles URLs sont ajoutées à la liste à crawler
- Répétition : Le processus continue en boucle
Googlebot en détail
Googlebot existe en plusieurs versions :
- Googlebot Desktop : Simule un navigateur desktop
- Googlebot Smartphone : Simule un mobile (utilisé pour le mobile-first indexing)
- Googlebot Images : Spécialisé dans les images
- Googlebot News : Pour Google Actualités
- Googlebot Video : Pour les contenus vidéo
Crawl budget
Le crawl budget est le nombre de pages que Googlebot va crawler sur votre site dans un temps donné. Il dépend de :
Capacité de crawl
Combien de requêtes votre serveur peut supporter sans être surchargé. Si votre site ralentit, Googlebot réduit la cadence.
Demande de crawl
L’intérêt de Google pour votre contenu. Un site populaire avec du contenu qui change souvent sera crawlé plus fréquemment.
Qui doit s’en soucier ?
- Petits sites (<10 000 pages) : Le crawl budget n’est généralement pas un problème
- Gros sites (>100 000 pages) : Le crawl budget devient critique
- Sites avec beaucoup de pages dynamiques : Filtres e-commerce, paramètres d’URL, etc.
Optimiser le crawl
Améliorer la découverte
- Sitemap XML : Soumettez un sitemap à jour dans Search Console
- Maillage interne : Reliez vos pages entre elles
- Évitez les pages orphelines : Chaque page doit avoir au moins un lien pointant vers elle
Accélérer le crawl
- Vitesse du serveur : Un serveur rapide permet plus de requêtes
- Réduire les erreurs : Les 404, 500 gaspillent du crawl budget
- Éviter les redirections en chaîne : A→B→C→D ralentit le crawl
Diriger le crawl
- Robots.txt : Bloquez les sections inutiles
- Noindex : Pour les pages qui n’ont pas besoin d’être indexées
- Pagination : Gérez correctement les pages de liste
Robots.txt et crawl
Le fichier robots.txt contrôle ce que les crawlers peuvent explorer :
User-agent: *
Disallow: /admin/
Disallow: /panier/
Disallow: /*?sort=
Allow: /
Sitemap: https://www.exemple.com/sitemap.xml
Attention : Robots.txt bloque le crawl, pas l’indexation. Une page bloquée peut quand même apparaître dans les résultats si des liens pointent vers elle.
Fréquence de crawl
Google ne crawle pas toutes les pages à la même fréquence :
| Type de page | Fréquence typique |
|---|---|
| Page d’accueil | Quotidienne ou plus |
| Pages populaires | Plusieurs fois par semaine |
| Articles de blog | Hebdomadaire à mensuel |
| Pages profondes | Mensuel ou moins |
| Pages jamais modifiées | Rarement |
Pour augmenter la fréquence :
- Mettez à jour régulièrement le contenu
- Obtenez des backlinks
- Générez du trafic
Problèmes de crawl courants
Pages non crawlées
Causes possibles :
- Bloquées par robots.txt
- Pas de liens internes
- Trop profondes dans l’architecture
- Serveur trop lent ou en erreur
Crawl gaspillé
Le crawler passe son temps sur des pages sans valeur :
- Filtres e-commerce infinis
- Paramètres de session ou tracking
- Pages de pagination profondes
- Versions dupliquées (http/https, www/non-www)
Crawl trap
Une “trappe à crawler” où le bot peut générer des URLs infinies :
- Calendriers sans limite
- Filtres combinables à l’infini
- Paramètres qui s’ajoutent sans fin
Surveiller le crawl
Dans Search Console
- Statistiques sur l’exploration : Pages crawlées, temps de téléchargement
- Couverture : Pages découvertes vs indexées
- Inspection d’URL : Dernière date de crawl d’une page
Dans les logs serveur
L’analyse de logs montre exactement ce que Googlebot crawle. Plus précis que Search Console mais plus technique.
Indicateurs à surveiller
- Nombre de pages crawlées par jour
- Temps de réponse moyen
- Ratio pages crawlées / pages indexées
- Erreurs de crawl
Forcer un recrawl
Quand vous avez mis à jour une page importante :
- Inspection d’URL dans Search Console
- Cliquez sur “Demander une indexation”
- Google recrawle généralement dans les heures qui suivent
Attention : limité à quelques URLs par jour. Pour des changements massifs, mettez à jour le sitemap et attendez.
Crawl et JavaScript
Googlebot peut exécuter JavaScript, mais :
- C’est plus lent (file d’attente de rendu)
- Plus coûteux en ressources
- Certains contenus peuvent être manqués
Pour les contenus critiques, privilégiez le rendu côté serveur (SSR) ou le pré-rendu.
Conclusion
Le crawl est la première étape vers la visibilité sur Google. Un site bien structuré, rapide, avec un maillage interne solide et un robots.txt correctement configuré facilite le travail de Googlebot. Pour les gros sites, l’optimisation du crawl budget devient un enjeu majeur. Surveillez régulièrement vos statistiques de crawl dans Search Console et vos logs serveur pour détecter les anomalies.