Spider (Robot d'exploration)

Définition

Un spider (aussi appelé crawler, bot ou robot d’exploration) est un programme informatique qui parcourt automatiquement le web en suivant les liens pour découvrir, analyser et indexer les pages web. C’est le premier maillon de la chaîne d’indexation des moteurs de recherche.

Googlebot est le spider le plus connu et important pour le SEO.

Fonctionnement

Découverte

Le spider part de pages connues et suit les liens pour en découvrir de nouvelles.

Téléchargement

Il télécharge le contenu HTML des pages visitées.

Analyse

Il extrait les informations : contenu, liens, métadonnées.

Stockage

Les données sont envoyées pour indexation.

Répétition

Le processus recommence régulièrement pour détecter les changements.

Principaux spiders

Googlebot

Le crawler de Google, le plus important pour le SEO.

Googlebot Desktop : Version desktop
Googlebot Mobile : Version mobile (principale pour l’indexation)
Googlebot Image : Pour Google Images
Googlebot Video : Pour les vidéos
Googlebot News : Pour Google News

Bingbot

Le crawler de Bing (Microsoft).

Autres

Yandexbot (Russie)
Baiduspider (Chine)
DuckDuckBot (DuckDuckGo)
Slurp (Yahoo, historique)

User-Agent

Identification

Les spiders s’identifient via leur User-Agent :

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Vérification

Vérifiez que le bot est authentique (reverse DNS lookup).

Contrôler l’accès des spiders

robots.txt

Fichier à la racine du site qui donne des directives :

User-agent: *
Disallow: /admin/
Allow: /

User-agent: Googlebot
Crawl-delay: 1

Meta robots

Directives dans le HTML :

<meta name="robots" content="noindex, nofollow">

X-Robots-Tag

Directives via HTTP header (pour fichiers non-HTML).

Crawl budget

Définition

Le nombre de pages qu’un spider va crawler sur votre site dans un temps donné.

Facteurs

Taille du site
Vitesse du serveur
Qualité du contenu
Fréquence des mises à jour

Optimisation

Pages rapides à charger
Pas de pages inutiles
Liens internes efficaces
Sitemap à jour

Faciliter le travail des spiders

Sitemap XML

Liste des URLs à crawler :

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/page</loc>
    <lastmod>2024-01-15</lastmod>
  </url>
</urlset>

Liens internes

Une bonne structure de liens internes aide la découverte.

Performance

Pages rapides = plus de pages crawlées.

Contenu unique

Évitez le contenu dupliqué qui gaspille le crawl budget.

Analyser l’activité des spiders

Fichiers de logs

Analysez les logs serveur pour voir quand et quoi les bots crawlent.

Google Search Console

Rapport “Exploration” : statistiques de crawl.

Outils de log analysis

Screaming Frog Log File Analyser
Botify
OnCrawl

Problèmes courants

Spider traps

Boucles infinies qui piègent le spider (calendriers, filtres).

Blocage involontaire

robots.txt trop restrictif ou erreurs de configuration.

Pages lentes

Le spider abandonne si la page est trop lente.

Erreurs serveur

Les erreurs 5xx font fuir les spiders.

Conclusion

Les spiders sont les yeux des moteurs de recherche sur votre site. Facilitez leur travail avec une structure claire, des pages rapides, un sitemap à jour et un robots.txt bien configuré. Surveillez leur activité via les logs et Search Console pour optimiser continuellement votre crawlabilité.

Découvrez Cuik Pro

Cuik Pro, c'est :

Définition

Fonctionnement

Découverte

Téléchargement

Analyse

Stockage

Répétition

Principaux spiders

Googlebot

Bingbot

Autres

User-Agent

Identification

Vérification

Contrôler l’accès des spiders

robots.txt

Meta robots

X-Robots-Tag

Crawl budget

Définition

Facteurs

Optimisation

Faciliter le travail des spiders

Sitemap XML

Liens internes

Performance

Contenu unique

Analyser l’activité des spiders

Fichiers de logs

Google Search Console

Outils de log analysis

Problèmes courants

Spider traps

Blocage involontaire

Pages lentes

Erreurs serveur

Conclusion