Définition
Un spider trap (piège à spider) est une structure de site web qui piège les robots d’exploration (crawlers) dans des boucles infinies ou des chemins sans fin. Cela gaspille le budget de crawl et peut empêcher l’indexation correcte du site.
Types de spider traps
Calendriers infinis
Calendriers avec liens vers le passé/futur sans limite.
/calendar/2024/01
/calendar/2023/12
/calendar/2022/...
→ Infini dans le passé
Filtres et facettes
Combinaisons infinies de filtres produits.
/produits?couleur=rouge&taille=m&prix=50-100&...
Paramètres de session
IDs de session créant des URLs uniques à chaque visite.
/page?sessionid=abc123
/page?sessionid=xyz789
→ Même page, URLs différentes
Pagination infinie
Pages générées dynamiquement sans fin.
Liens relatifs mal configurés
Chemins comme ./page créant des niveaux infinis.
Conséquences
Budget de crawl gaspillé
Googlebot passe son temps dans le piège au lieu de crawler les vraies pages.
Indexation incomplète
Les pages importantes ne sont pas découvertes.
Surcharge serveur
Le crawler multiplie les requêtes.
Contenu dupliqué
Création de nombreuses URLs pour le même contenu.
Détection
Signes dans les logs
- Crawl massif de certaines URLs
- Patterns répétitifs
- URLs avec paramètres multiples
Outils
- Analyse des logs serveur
- Screaming Frog (profondeur excessive)
- Search Console (URLs indexées anormales)
Solutions
Robots.txt
Bloquez les chemins problématiques.
User-agent: *
Disallow: /calendar/
Disallow: /*?sessionid=
Meta robots noindex
<meta name="robots" content="noindex, follow">
Balise canonical
Pointez vers une version canonique.
Paramètres URL dans GSC
Indiquez à Google comment traiter les paramètres.
Configuration technique
- Supprimez les paramètres de session des URLs
- Limitez les combinaisons de filtres
- Ajoutez des limites aux calendriers
Cas particuliers
E-commerce
Les filtres à facettes sont les spider traps les plus courants.
Forums
Pagination infinie, paramètres de tri.
Calendriers d’événements
Dates sans limite temporelle.
Bonnes pratiques préventives
Architecture planifiée
Anticipez les pièges lors de la conception.
URLs propres
Évitez les paramètres quand possible.
Limites logiques
Définissez des bornes (dates, pages).
Audit régulier
Surveillez les comportements de crawl anormaux.
Conclusion
Les spider traps sont des problèmes techniques qui gaspillent votre budget de crawl et nuisent à l’indexation. Identifiez-les via l’analyse des logs et corrigez-les avec robots.txt, canonical, ou des corrections techniques. Une architecture de site bien pensée évite ces pièges dès la conception.