Crawler / Bot / Spider

Définition

Un crawler (aussi appelé bot, spider, ou robot d’exploration) est un programme automatisé qui parcourt le web de manière systématique. Il suit les liens de page en page pour découvrir du contenu, télécharger les pages, et alimenter l’index d’un moteur de recherche.

Googlebot est le crawler de Google, le plus important pour le SEO.

Comment fonctionne un crawler

Processus de base

Seed URLs : Le crawler part d’une liste d’URLs connues
Téléchargement : Il récupère le contenu HTML de chaque page
Parsing : Il analyse le HTML pour extraire les liens
Queue : Les nouveaux liens sont ajoutés à la file d’attente
Répétition : Le processus continue indéfiniment

Respect des règles

Les crawlers bien conçus respectent :

Le fichier robots.txt
Les directives nofollow
Les délais entre requêtes (politesse)

Principaux crawlers

Moteurs de recherche

Crawler	Propriétaire
Googlebot	Google
Bingbot	Microsoft Bing
Slurp	Yahoo
DuckDuckBot	DuckDuckGo
Yandexbot	Yandex
Baiduspider	Baidu

Googlebot spécialisés

Googlebot-Image : Images
Googlebot-News : Google News
Googlebot-Video : Vidéos
AdsBot-Google : Vérification des landing pages Ads

Crawlers SEO

AhrefsBot : Ahrefs
SemrushBot : SEMrush
MJ12bot : Majestic
rogerbot : Moz

Autres crawlers

facebookexternalhit : Facebook (previews)
Twitterbot : Twitter (cards)
LinkedInBot : LinkedIn

Googlebot en détail

User-agents

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Fréquence de crawl

Dépend de :

Autorité du site
Fréquence de mise à jour
Crawl budget
Performances serveur

Ce que Googlebot voit

HTML
CSS et JavaScript (rendu)
Images (pour l’analyse)
Liens et structure

Crawl budget

Définition

Le nombre de pages que Google est prêt à crawler sur votre site dans un laps de temps donné.

Facteurs influençant

Taille et autorité du site
Fréquence de mise à jour
Performances serveur
Pages de qualité

Optimiser le crawl budget

Supprimer/noindex les pages inutiles
Améliorer la vitesse du serveur
Éviter les chaînes de redirections
Réparer les erreurs 404
Sitemap à jour

Identifier les crawlers dans les logs

Logs serveur

Les crawlers laissent des traces dans les logs :

66.249.66.1 - - [01/Jan/2024:10:15:30] "GET /page.html HTTP/1.1" 200 - "Mozilla/5.0 (compatible; Googlebot/2.1; ...)"

Analyse de logs SEO

Outils comme Screaming Frog Log Analyzer ou Oncrawl permettent d’analyser le comportement des crawlers.

Métriques utiles

Pages crawlées par jour
Codes de réponse
Pages les plus crawlées
Fréquence de visite

Bloquer un crawler

Via robots.txt

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

Via .htaccess (Apache)

RewriteCond %{HTTP_USER_AGENT} ^SemrushBot [NC]
RewriteRule .* - [F,L]

Attention

Ne bloquez pas Googlebot ou Bingbot sauf raison très spécifique.

Faux crawlers

Le problème

Des bots malveillants peuvent se faire passer pour Googlebot pour contourner les blocages.

Vérification

Vérifiez l’IP du crawler :

host 66.249.66.1

Les vrais Googlebot ont des IPs résolvant vers googlebot.com ou google.com.

Créer son propre crawler

Outils SEO

Screaming Frog : Crawler desktop puissant
Oncrawl : Crawler cloud
Sitebulb : Crawler avec visualisation
Deepcrawl : Crawler enterprise

Cas d’usage

Audit technique du site
Détection d’erreurs
Analyse de structure
Monitoring

Conclusion

Les crawlers sont les explorateurs du web, essentiels au fonctionnement des moteurs de recherche. Comprendre comment Googlebot crawle votre site vous permet d’optimiser la découverte et l’indexation de vos pages. Surveillez votre crawl budget, analysez vos logs serveur, et assurez-vous que vos pages importantes sont facilement accessibles pour les robots.

Découvrez Cuik Pro

Cuik Pro, c'est :

Définition

Comment fonctionne un crawler

Processus de base

Respect des règles

Principaux crawlers

Moteurs de recherche

Googlebot spécialisés

Crawlers SEO

Autres crawlers

Googlebot en détail

User-agents

Fréquence de crawl

Ce que Googlebot voit

Crawl budget

Définition

Facteurs influençant

Optimiser le crawl budget

Identifier les crawlers dans les logs

Logs serveur

Analyse de logs SEO

Métriques utiles

Bloquer un crawler

Via robots.txt

Via .htaccess (Apache)

Attention

Faux crawlers

Le problème

Vérification

Créer son propre crawler

Outils SEO

Cas d’usage

Conclusion