Définition
Un crawler (aussi appelé bot, spider, ou robot d’exploration) est un programme automatisé qui parcourt le web de manière systématique. Il suit les liens de page en page pour découvrir du contenu, télécharger les pages, et alimenter l’index d’un moteur de recherche.
Googlebot est le crawler de Google, le plus important pour le SEO.
Comment fonctionne un crawler
Processus de base
- Seed URLs : Le crawler part d’une liste d’URLs connues
- Téléchargement : Il récupère le contenu HTML de chaque page
- Parsing : Il analyse le HTML pour extraire les liens
- Queue : Les nouveaux liens sont ajoutés à la file d’attente
- Répétition : Le processus continue indéfiniment
Respect des règles
Les crawlers bien conçus respectent :
- Le fichier robots.txt
- Les directives nofollow
- Les délais entre requêtes (politesse)
Principaux crawlers
Moteurs de recherche
| Crawler | Propriétaire |
|---|---|
| Googlebot | |
| Bingbot | Microsoft Bing |
| Slurp | Yahoo |
| DuckDuckBot | DuckDuckGo |
| Yandexbot | Yandex |
| Baiduspider | Baidu |
Googlebot spécialisés
- Googlebot-Image : Images
- Googlebot-News : Google News
- Googlebot-Video : Vidéos
- AdsBot-Google : Vérification des landing pages Ads
Crawlers SEO
- AhrefsBot : Ahrefs
- SemrushBot : SEMrush
- MJ12bot : Majestic
- rogerbot : Moz
Autres crawlers
- facebookexternalhit : Facebook (previews)
- Twitterbot : Twitter (cards)
- LinkedInBot : LinkedIn
Googlebot en détail
User-agents
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Fréquence de crawl
Dépend de :
- Autorité du site
- Fréquence de mise à jour
- Crawl budget
- Performances serveur
Ce que Googlebot voit
- HTML
- CSS et JavaScript (rendu)
- Images (pour l’analyse)
- Liens et structure
Crawl budget
Définition
Le nombre de pages que Google est prêt à crawler sur votre site dans un laps de temps donné.
Facteurs influençant
- Taille et autorité du site
- Fréquence de mise à jour
- Performances serveur
- Pages de qualité
Optimiser le crawl budget
- Supprimer/noindex les pages inutiles
- Améliorer la vitesse du serveur
- Éviter les chaînes de redirections
- Réparer les erreurs 404
- Sitemap à jour
Identifier les crawlers dans les logs
Logs serveur
Les crawlers laissent des traces dans les logs :
66.249.66.1 - - [01/Jan/2024:10:15:30] "GET /page.html HTTP/1.1" 200 - "Mozilla/5.0 (compatible; Googlebot/2.1; ...)"
Analyse de logs SEO
Outils comme Screaming Frog Log Analyzer ou Oncrawl permettent d’analyser le comportement des crawlers.
Métriques utiles
- Pages crawlées par jour
- Codes de réponse
- Pages les plus crawlées
- Fréquence de visite
Bloquer un crawler
Via robots.txt
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
Via .htaccess (Apache)
RewriteCond %{HTTP_USER_AGENT} ^SemrushBot [NC]
RewriteRule .* - [F,L]
Attention
Ne bloquez pas Googlebot ou Bingbot sauf raison très spécifique.
Faux crawlers
Le problème
Des bots malveillants peuvent se faire passer pour Googlebot pour contourner les blocages.
Vérification
Vérifiez l’IP du crawler :
host 66.249.66.1
Les vrais Googlebot ont des IPs résolvant vers googlebot.com ou google.com.
Créer son propre crawler
Outils SEO
- Screaming Frog : Crawler desktop puissant
- Oncrawl : Crawler cloud
- Sitebulb : Crawler avec visualisation
- Deepcrawl : Crawler enterprise
Cas d’usage
- Audit technique du site
- Détection d’erreurs
- Analyse de structure
- Monitoring
Conclusion
Les crawlers sont les explorateurs du web, essentiels au fonctionnement des moteurs de recherche. Comprendre comment Googlebot crawle votre site vous permet d’optimiser la découverte et l’indexation de vos pages. Surveillez votre crawl budget, analysez vos logs serveur, et assurez-vous que vos pages importantes sont facilement accessibles pour les robots.