Crawl et Crawler

Définition

Le crawl (exploration) est le processus automatisé par lequel les moteurs de recherche découvrent et analysent les pages web. Le crawler (robot d’exploration, spider, bot) est le programme qui effectue cette tâche. Pour Google, c’est Googlebot.

Sans crawl, pas d’indexation. Sans indexation, pas de présence dans les résultats de recherche.

Comment fonctionne le crawl

Le processus de base

Découverte : Le crawler trouve une URL (via un lien, un sitemap, ou une soumission directe)
Requête : Il envoie une requête HTTP pour récupérer la page
Analyse : Il lit le contenu HTML, les ressources (CSS, JS, images)
Extraction : Il identifie les liens vers d’autres pages
File d’attente : Les nouvelles URLs sont ajoutées à la liste à crawler
Répétition : Le processus continue en boucle

Googlebot en détail

Googlebot existe en plusieurs versions :

Googlebot Desktop : Simule un navigateur desktop
Googlebot Smartphone : Simule un mobile (utilisé pour le mobile-first indexing)
Googlebot Images : Spécialisé dans les images
Googlebot News : Pour Google Actualités
Googlebot Video : Pour les contenus vidéo

Crawl budget

Le crawl budget est le nombre de pages que Googlebot va crawler sur votre site dans un temps donné. Il dépend de :

Capacité de crawl

Combien de requêtes votre serveur peut supporter sans être surchargé. Si votre site ralentit, Googlebot réduit la cadence.

Demande de crawl

L’intérêt de Google pour votre contenu. Un site populaire avec du contenu qui change souvent sera crawlé plus fréquemment.

Qui doit s’en soucier ?

Petits sites (<10 000 pages) : Le crawl budget n’est généralement pas un problème
Gros sites (>100 000 pages) : Le crawl budget devient critique
Sites avec beaucoup de pages dynamiques : Filtres e-commerce, paramètres d’URL, etc.

Optimiser le crawl

Améliorer la découverte

Sitemap XML : Soumettez un sitemap à jour dans Search Console
Maillage interne : Reliez vos pages entre elles
Évitez les pages orphelines : Chaque page doit avoir au moins un lien pointant vers elle

Accélérer le crawl

Vitesse du serveur : Un serveur rapide permet plus de requêtes
Réduire les erreurs : Les 404, 500 gaspillent du crawl budget
Éviter les redirections en chaîne : A→B→C→D ralentit le crawl

Diriger le crawl

Robots.txt : Bloquez les sections inutiles
Noindex : Pour les pages qui n’ont pas besoin d’être indexées
Pagination : Gérez correctement les pages de liste

Robots.txt et crawl

Le fichier robots.txt contrôle ce que les crawlers peuvent explorer :

User-agent: *
Disallow: /admin/
Disallow: /panier/
Disallow: /*?sort=
Allow: /

Sitemap: https://www.exemple.com/sitemap.xml

Attention : Robots.txt bloque le crawl, pas l’indexation. Une page bloquée peut quand même apparaître dans les résultats si des liens pointent vers elle.

Fréquence de crawl

Google ne crawle pas toutes les pages à la même fréquence :

Type de page	Fréquence typique
Page d’accueil	Quotidienne ou plus
Pages populaires	Plusieurs fois par semaine
Articles de blog	Hebdomadaire à mensuel
Pages profondes	Mensuel ou moins
Pages jamais modifiées	Rarement

Pour augmenter la fréquence :

Mettez à jour régulièrement le contenu
Obtenez des backlinks
Générez du trafic

Problèmes de crawl courants

Pages non crawlées

Causes possibles :

Bloquées par robots.txt
Pas de liens internes
Trop profondes dans l’architecture
Serveur trop lent ou en erreur

Crawl gaspillé

Le crawler passe son temps sur des pages sans valeur :

Filtres e-commerce infinis
Paramètres de session ou tracking
Pages de pagination profondes
Versions dupliquées (http/https, www/non-www)

Crawl trap

Une “trappe à crawler” où le bot peut générer des URLs infinies :

Calendriers sans limite
Filtres combinables à l’infini
Paramètres qui s’ajoutent sans fin

Surveiller le crawl

Dans Search Console

Statistiques sur l’exploration : Pages crawlées, temps de téléchargement
Couverture : Pages découvertes vs indexées
Inspection d’URL : Dernière date de crawl d’une page

Dans les logs serveur

L’analyse de logs montre exactement ce que Googlebot crawle. Plus précis que Search Console mais plus technique.

Indicateurs à surveiller

Nombre de pages crawlées par jour
Temps de réponse moyen
Ratio pages crawlées / pages indexées
Erreurs de crawl

Forcer un recrawl

Quand vous avez mis à jour une page importante :

Inspection d’URL dans Search Console
Cliquez sur “Demander une indexation”
Google recrawle généralement dans les heures qui suivent

Attention : limité à quelques URLs par jour. Pour des changements massifs, mettez à jour le sitemap et attendez.

Crawl et JavaScript

Googlebot peut exécuter JavaScript, mais :

C’est plus lent (file d’attente de rendu)
Plus coûteux en ressources
Certains contenus peuvent être manqués

Pour les contenus critiques, privilégiez le rendu côté serveur (SSR) ou le pré-rendu.

Conclusion

Le crawl est la première étape vers la visibilité sur Google. Un site bien structuré, rapide, avec un maillage interne solide et un robots.txt correctement configuré facilite le travail de Googlebot. Pour les gros sites, l’optimisation du crawl budget devient un enjeu majeur. Surveillez régulièrement vos statistiques de crawl dans Search Console et vos logs serveur pour détecter les anomalies.

Découvrez Cuik Pro

Cuik Pro, c'est :