Définition
Un spider (aussi appelé crawler, bot ou robot d’exploration) est un programme informatique qui parcourt automatiquement le web en suivant les liens pour découvrir, analyser et indexer les pages web. C’est le premier maillon de la chaîne d’indexation des moteurs de recherche.
Googlebot est le spider le plus connu et important pour le SEO.
Fonctionnement
Découverte
Le spider part de pages connues et suit les liens pour en découvrir de nouvelles.
Téléchargement
Il télécharge le contenu HTML des pages visitées.
Analyse
Il extrait les informations : contenu, liens, métadonnées.
Stockage
Les données sont envoyées pour indexation.
Répétition
Le processus recommence régulièrement pour détecter les changements.
Principaux spiders
Googlebot
Le crawler de Google, le plus important pour le SEO.
- Googlebot Desktop : Version desktop
- Googlebot Mobile : Version mobile (principale pour l’indexation)
- Googlebot Image : Pour Google Images
- Googlebot Video : Pour les vidéos
- Googlebot News : Pour Google News
Bingbot
Le crawler de Bing (Microsoft).
Autres
- Yandexbot (Russie)
- Baiduspider (Chine)
- DuckDuckBot (DuckDuckGo)
- Slurp (Yahoo, historique)
User-Agent
Identification
Les spiders s’identifient via leur User-Agent :
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Vérification
Vérifiez que le bot est authentique (reverse DNS lookup).
Contrôler l’accès des spiders
robots.txt
Fichier à la racine du site qui donne des directives :
User-agent: *
Disallow: /admin/
Allow: /
User-agent: Googlebot
Crawl-delay: 1
Meta robots
Directives dans le HTML :
<meta name="robots" content="noindex, nofollow">
X-Robots-Tag
Directives via HTTP header (pour fichiers non-HTML).
Crawl budget
Définition
Le nombre de pages qu’un spider va crawler sur votre site dans un temps donné.
Facteurs
- Taille du site
- Vitesse du serveur
- Qualité du contenu
- Fréquence des mises à jour
Optimisation
- Pages rapides à charger
- Pas de pages inutiles
- Liens internes efficaces
- Sitemap à jour
Faciliter le travail des spiders
Sitemap XML
Liste des URLs à crawler :
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.com/page</loc>
<lastmod>2024-01-15</lastmod>
</url>
</urlset>
Liens internes
Une bonne structure de liens internes aide la découverte.
Performance
Pages rapides = plus de pages crawlées.
Contenu unique
Évitez le contenu dupliqué qui gaspille le crawl budget.
Analyser l’activité des spiders
Fichiers de logs
Analysez les logs serveur pour voir quand et quoi les bots crawlent.
Google Search Console
Rapport “Exploration” : statistiques de crawl.
Outils de log analysis
- Screaming Frog Log File Analyser
- Botify
- OnCrawl
Problèmes courants
Spider traps
Boucles infinies qui piègent le spider (calendriers, filtres).
Blocage involontaire
robots.txt trop restrictif ou erreurs de configuration.
Pages lentes
Le spider abandonne si la page est trop lente.
Erreurs serveur
Les erreurs 5xx font fuir les spiders.
Conclusion
Les spiders sont les yeux des moteurs de recherche sur votre site. Facilitez leur travail avec une structure claire, des pages rapides, un sitemap à jour et un robots.txt bien configuré. Surveillez leur activité via les logs et Search Console pour optimiser continuellement votre crawlabilité.