← Retour au lexique
🎯 SEO Fondamental

Spider (Robot d'exploration)

Un spider est un robot qui parcourt le web automatiquement pour découvrir et indexer les pages. Googlebot est le spider de Google.

Définition

Un spider (aussi appelé crawler, bot ou robot d’exploration) est un programme informatique qui parcourt automatiquement le web en suivant les liens pour découvrir, analyser et indexer les pages web. C’est le premier maillon de la chaîne d’indexation des moteurs de recherche.

Googlebot est le spider le plus connu et important pour le SEO.

Fonctionnement

Découverte

Le spider part de pages connues et suit les liens pour en découvrir de nouvelles.

Téléchargement

Il télécharge le contenu HTML des pages visitées.

Analyse

Il extrait les informations : contenu, liens, métadonnées.

Stockage

Les données sont envoyées pour indexation.

Répétition

Le processus recommence régulièrement pour détecter les changements.

Principaux spiders

Googlebot

Le crawler de Google, le plus important pour le SEO.

  • Googlebot Desktop : Version desktop
  • Googlebot Mobile : Version mobile (principale pour l’indexation)
  • Googlebot Image : Pour Google Images
  • Googlebot Video : Pour les vidéos
  • Googlebot News : Pour Google News

Bingbot

Le crawler de Bing (Microsoft).

Autres

  • Yandexbot (Russie)
  • Baiduspider (Chine)
  • DuckDuckBot (DuckDuckGo)
  • Slurp (Yahoo, historique)

User-Agent

Identification

Les spiders s’identifient via leur User-Agent :

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Vérification

Vérifiez que le bot est authentique (reverse DNS lookup).

Contrôler l’accès des spiders

robots.txt

Fichier à la racine du site qui donne des directives :

User-agent: *
Disallow: /admin/
Allow: /

User-agent: Googlebot
Crawl-delay: 1

Meta robots

Directives dans le HTML :

<meta name="robots" content="noindex, nofollow">

X-Robots-Tag

Directives via HTTP header (pour fichiers non-HTML).

Crawl budget

Définition

Le nombre de pages qu’un spider va crawler sur votre site dans un temps donné.

Facteurs

  • Taille du site
  • Vitesse du serveur
  • Qualité du contenu
  • Fréquence des mises à jour

Optimisation

  • Pages rapides à charger
  • Pas de pages inutiles
  • Liens internes efficaces
  • Sitemap à jour

Faciliter le travail des spiders

Sitemap XML

Liste des URLs à crawler :

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/page</loc>
    <lastmod>2024-01-15</lastmod>
  </url>
</urlset>

Liens internes

Une bonne structure de liens internes aide la découverte.

Performance

Pages rapides = plus de pages crawlées.

Contenu unique

Évitez le contenu dupliqué qui gaspille le crawl budget.

Analyser l’activité des spiders

Fichiers de logs

Analysez les logs serveur pour voir quand et quoi les bots crawlent.

Google Search Console

Rapport “Exploration” : statistiques de crawl.

Outils de log analysis

  • Screaming Frog Log File Analyser
  • Botify
  • OnCrawl

Problèmes courants

Spider traps

Boucles infinies qui piègent le spider (calendriers, filtres).

Blocage involontaire

robots.txt trop restrictif ou erreurs de configuration.

Pages lentes

Le spider abandonne si la page est trop lente.

Erreurs serveur

Les erreurs 5xx font fuir les spiders.

Conclusion

Les spiders sont les yeux des moteurs de recherche sur votre site. Facilitez leur travail avec une structure claire, des pages rapides, un sitemap à jour et un robots.txt bien configuré. Surveillez leur activité via les logs et Search Console pour optimiser continuellement votre crawlabilité.