← Retour au lexique
⚙️ SEO Technique

Crawler / Bot / Spider

Un crawler (ou bot/spider) est un programme automatisé qui parcourt le web pour découvrir et analyser les pages, comme Googlebot pour Google.

Définition

Un crawler (aussi appelé bot, spider, ou robot d’exploration) est un programme automatisé qui parcourt le web de manière systématique. Il suit les liens de page en page pour découvrir du contenu, télécharger les pages, et alimenter l’index d’un moteur de recherche.

Googlebot est le crawler de Google, le plus important pour le SEO.

Comment fonctionne un crawler

Processus de base

  1. Seed URLs : Le crawler part d’une liste d’URLs connues
  2. Téléchargement : Il récupère le contenu HTML de chaque page
  3. Parsing : Il analyse le HTML pour extraire les liens
  4. Queue : Les nouveaux liens sont ajoutés à la file d’attente
  5. Répétition : Le processus continue indéfiniment

Respect des règles

Les crawlers bien conçus respectent :

  • Le fichier robots.txt
  • Les directives nofollow
  • Les délais entre requêtes (politesse)

Principaux crawlers

Moteurs de recherche

CrawlerPropriétaire
GooglebotGoogle
BingbotMicrosoft Bing
SlurpYahoo
DuckDuckBotDuckDuckGo
YandexbotYandex
BaiduspiderBaidu

Googlebot spécialisés

  • Googlebot-Image : Images
  • Googlebot-News : Google News
  • Googlebot-Video : Vidéos
  • AdsBot-Google : Vérification des landing pages Ads

Crawlers SEO

  • AhrefsBot : Ahrefs
  • SemrushBot : SEMrush
  • MJ12bot : Majestic
  • rogerbot : Moz

Autres crawlers

  • facebookexternalhit : Facebook (previews)
  • Twitterbot : Twitter (cards)
  • LinkedInBot : LinkedIn

Googlebot en détail

User-agents

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Fréquence de crawl

Dépend de :

  • Autorité du site
  • Fréquence de mise à jour
  • Crawl budget
  • Performances serveur

Ce que Googlebot voit

  • HTML
  • CSS et JavaScript (rendu)
  • Images (pour l’analyse)
  • Liens et structure

Crawl budget

Définition

Le nombre de pages que Google est prêt à crawler sur votre site dans un laps de temps donné.

Facteurs influençant

  • Taille et autorité du site
  • Fréquence de mise à jour
  • Performances serveur
  • Pages de qualité

Optimiser le crawl budget

  • Supprimer/noindex les pages inutiles
  • Améliorer la vitesse du serveur
  • Éviter les chaînes de redirections
  • Réparer les erreurs 404
  • Sitemap à jour

Identifier les crawlers dans les logs

Logs serveur

Les crawlers laissent des traces dans les logs :

66.249.66.1 - - [01/Jan/2024:10:15:30] "GET /page.html HTTP/1.1" 200 - "Mozilla/5.0 (compatible; Googlebot/2.1; ...)"

Analyse de logs SEO

Outils comme Screaming Frog Log Analyzer ou Oncrawl permettent d’analyser le comportement des crawlers.

Métriques utiles

  • Pages crawlées par jour
  • Codes de réponse
  • Pages les plus crawlées
  • Fréquence de visite

Bloquer un crawler

Via robots.txt

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

Via .htaccess (Apache)

RewriteCond %{HTTP_USER_AGENT} ^SemrushBot [NC]
RewriteRule .* - [F,L]

Attention

Ne bloquez pas Googlebot ou Bingbot sauf raison très spécifique.

Faux crawlers

Le problème

Des bots malveillants peuvent se faire passer pour Googlebot pour contourner les blocages.

Vérification

Vérifiez l’IP du crawler :

host 66.249.66.1

Les vrais Googlebot ont des IPs résolvant vers googlebot.com ou google.com.

Créer son propre crawler

Outils SEO

  • Screaming Frog : Crawler desktop puissant
  • Oncrawl : Crawler cloud
  • Sitebulb : Crawler avec visualisation
  • Deepcrawl : Crawler enterprise

Cas d’usage

  • Audit technique du site
  • Détection d’erreurs
  • Analyse de structure
  • Monitoring

Conclusion

Les crawlers sont les explorateurs du web, essentiels au fonctionnement des moteurs de recherche. Comprendre comment Googlebot crawle votre site vous permet d’optimiser la découverte et l’indexation de vos pages. Surveillez votre crawl budget, analysez vos logs serveur, et assurez-vous que vos pages importantes sont facilement accessibles pour les robots.