← Retour au lexique
⚙️ SEO Technique

Crawl et Crawler

Le crawl est le processus par lequel les robots des moteurs de recherche parcourent le web pour découvrir et analyser les pages. Le crawler est le robot qui effectue cette tâche.

Définition

Le crawl (exploration) est le processus automatisé par lequel les moteurs de recherche découvrent et analysent les pages web. Le crawler (robot d’exploration, spider, bot) est le programme qui effectue cette tâche. Pour Google, c’est Googlebot.

Sans crawl, pas d’indexation. Sans indexation, pas de présence dans les résultats de recherche.

Comment fonctionne le crawl

Le processus de base

  1. Découverte : Le crawler trouve une URL (via un lien, un sitemap, ou une soumission directe)
  2. Requête : Il envoie une requête HTTP pour récupérer la page
  3. Analyse : Il lit le contenu HTML, les ressources (CSS, JS, images)
  4. Extraction : Il identifie les liens vers d’autres pages
  5. File d’attente : Les nouvelles URLs sont ajoutées à la liste à crawler
  6. Répétition : Le processus continue en boucle

Googlebot en détail

Googlebot existe en plusieurs versions :

  • Googlebot Desktop : Simule un navigateur desktop
  • Googlebot Smartphone : Simule un mobile (utilisé pour le mobile-first indexing)
  • Googlebot Images : Spécialisé dans les images
  • Googlebot News : Pour Google Actualités
  • Googlebot Video : Pour les contenus vidéo

Crawl budget

Le crawl budget est le nombre de pages que Googlebot va crawler sur votre site dans un temps donné. Il dépend de :

Capacité de crawl

Combien de requêtes votre serveur peut supporter sans être surchargé. Si votre site ralentit, Googlebot réduit la cadence.

Demande de crawl

L’intérêt de Google pour votre contenu. Un site populaire avec du contenu qui change souvent sera crawlé plus fréquemment.

Qui doit s’en soucier ?

  • Petits sites (<10 000 pages) : Le crawl budget n’est généralement pas un problème
  • Gros sites (>100 000 pages) : Le crawl budget devient critique
  • Sites avec beaucoup de pages dynamiques : Filtres e-commerce, paramètres d’URL, etc.

Optimiser le crawl

Améliorer la découverte

  • Sitemap XML : Soumettez un sitemap à jour dans Search Console
  • Maillage interne : Reliez vos pages entre elles
  • Évitez les pages orphelines : Chaque page doit avoir au moins un lien pointant vers elle

Accélérer le crawl

  • Vitesse du serveur : Un serveur rapide permet plus de requêtes
  • Réduire les erreurs : Les 404, 500 gaspillent du crawl budget
  • Éviter les redirections en chaîne : A→B→C→D ralentit le crawl

Diriger le crawl

  • Robots.txt : Bloquez les sections inutiles
  • Noindex : Pour les pages qui n’ont pas besoin d’être indexées
  • Pagination : Gérez correctement les pages de liste

Robots.txt et crawl

Le fichier robots.txt contrôle ce que les crawlers peuvent explorer :

User-agent: *
Disallow: /admin/
Disallow: /panier/
Disallow: /*?sort=
Allow: /

Sitemap: https://www.exemple.com/sitemap.xml

Attention : Robots.txt bloque le crawl, pas l’indexation. Une page bloquée peut quand même apparaître dans les résultats si des liens pointent vers elle.

Fréquence de crawl

Google ne crawle pas toutes les pages à la même fréquence :

Type de pageFréquence typique
Page d’accueilQuotidienne ou plus
Pages populairesPlusieurs fois par semaine
Articles de blogHebdomadaire à mensuel
Pages profondesMensuel ou moins
Pages jamais modifiéesRarement

Pour augmenter la fréquence :

  • Mettez à jour régulièrement le contenu
  • Obtenez des backlinks
  • Générez du trafic

Problèmes de crawl courants

Pages non crawlées

Causes possibles :

  • Bloquées par robots.txt
  • Pas de liens internes
  • Trop profondes dans l’architecture
  • Serveur trop lent ou en erreur

Crawl gaspillé

Le crawler passe son temps sur des pages sans valeur :

  • Filtres e-commerce infinis
  • Paramètres de session ou tracking
  • Pages de pagination profondes
  • Versions dupliquées (http/https, www/non-www)

Crawl trap

Une “trappe à crawler” où le bot peut générer des URLs infinies :

  • Calendriers sans limite
  • Filtres combinables à l’infini
  • Paramètres qui s’ajoutent sans fin

Surveiller le crawl

Dans Search Console

  • Statistiques sur l’exploration : Pages crawlées, temps de téléchargement
  • Couverture : Pages découvertes vs indexées
  • Inspection d’URL : Dernière date de crawl d’une page

Dans les logs serveur

L’analyse de logs montre exactement ce que Googlebot crawle. Plus précis que Search Console mais plus technique.

Indicateurs à surveiller

  • Nombre de pages crawlées par jour
  • Temps de réponse moyen
  • Ratio pages crawlées / pages indexées
  • Erreurs de crawl

Forcer un recrawl

Quand vous avez mis à jour une page importante :

  1. Inspection d’URL dans Search Console
  2. Cliquez sur “Demander une indexation”
  3. Google recrawle généralement dans les heures qui suivent

Attention : limité à quelques URLs par jour. Pour des changements massifs, mettez à jour le sitemap et attendez.

Crawl et JavaScript

Googlebot peut exécuter JavaScript, mais :

  • C’est plus lent (file d’attente de rendu)
  • Plus coûteux en ressources
  • Certains contenus peuvent être manqués

Pour les contenus critiques, privilégiez le rendu côté serveur (SSR) ou le pré-rendu.

Conclusion

Le crawl est la première étape vers la visibilité sur Google. Un site bien structuré, rapide, avec un maillage interne solide et un robots.txt correctement configuré facilite le travail de Googlebot. Pour les gros sites, l’optimisation du crawl budget devient un enjeu majeur. Surveillez régulièrement vos statistiques de crawl dans Search Console et vos logs serveur pour détecter les anomalies.