Définition
L’analyse de logs SEO consiste à examiner les fichiers journaux (logs) de votre serveur web pour observer le comportement réel des robots d’exploration. Contrairement aux données de Search Console qui sont échantillonnées et agrégées, les logs montrent exactement quelles pages Googlebot visite, à quelle fréquence, et quelles erreurs il rencontre.
C’est la seule façon de voir ce que Google fait vraiment sur votre site.
Pourquoi analyser les logs ?
Search Console vous dit ce que Google indexe. Les logs vous disent ce que Google crawle. La différence est cruciale.
Avec les logs, vous pouvez :
- Voir où Googlebot passe son temps : Est-ce qu’il crawle vos pages importantes ou gaspille son budget sur des pages inutiles ?
- Détecter les pages orphelines : Des pages qui ne reçoivent jamais la visite de Googlebot car aucun lien interne ne pointe vers elles.
- Identifier les erreurs invisibles : Certaines erreurs 500 ou timeout n’apparaissent jamais dans Search Console.
- Comprendre la fréquence de crawl : Googlebot passe-t-il tous les jours ? Toutes les semaines ? Jamais ?
Que contient une ligne de log ?
Voici une ligne de log Apache typique :
66.249.64.1 - - [15/Mar/2024:10:23:45 +0100] "GET /products/seo-tools HTTP/1.1" 200 5432 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Cette ligne nous dit que Googlebot (IP 66.249.64.1) a demandé la page /products/seo-tools le 15 mars à 10h23, a reçu une réponse 200 (succès) de 5432 octets.
Les éléments clés à extraire :
- L’IP pour identifier le bot
- La date/heure pour analyser les patterns
- L’URL demandée pour savoir ce qui est crawlé
- Le code HTTP pour détecter les erreurs
- Le User-Agent pour confirmer l’identité du robot
Identifier Googlebot dans les logs
Googlebot utilise des IPs dans la plage 66.249.x.x et s’identifie avec un User-Agent contenant “Googlebot”. Mais attention : des bots malveillants peuvent se faire passer pour Googlebot.
Pour vérifier qu’un bot est vraiment Googlebot :
- Faire un reverse DNS sur l’IP
- Vérifier que le domaine se termine par
.google.comou.googlebot.com - Confirmer avec un DNS direct
Les autres bots à surveiller : Bingbot (40.77.x.x), AhrefsBot, SemrushBot, et les éventuels bots malveillants qui consomment vos ressources.
Les problèmes révélés par l’analyse de logs
Crawl budget gaspillé
C’est le problème le plus fréquent. Googlebot passe son temps sur des pages sans valeur SEO :
- Pages de filtres e-commerce : Des milliers de combinaisons
/category?color=red&size=M&sort=pricecrawlées alors qu’elles n’ont pas vocation à être indexées. - Pagination profonde : Googlebot qui crawle
/blog/page/47/alors que personne n’ira jamais aussi loin. - Paramètres de tracking : Les mêmes pages crawlées avec
?utm_source=newsletter,?utm_source=facebook, etc. - Pages techniques : Admin, login, CGV, mentions légales crawlées en boucle.
Pages importantes jamais crawlées
L’inverse du problème précédent : vos meilleures pages ne reçoivent pas de visite de Googlebot. Causes possibles :
- Aucun lien interne vers ces pages
- Pages trop profondes dans l’architecture (plus de 4 clics depuis l’accueil)
- Blocage involontaire dans le robots.txt
Erreurs récurrentes
Les logs révèlent des patterns d’erreurs :
- Un même 404 crawlé des dizaines de fois = un lien cassé quelque part sur votre site
- Des erreurs 500 sur une section précise = un problème applicatif à corriger
- Des 503 fréquents = serveur surchargé ou mal dimensionné
Codes HTTP à connaître
| Code | Signification | Action |
|---|---|---|
| 200 | Succès | Tout va bien |
| 301/302 | Redirection | Vérifier qu’il n’y a pas de chaînes |
| 304 | Non modifié | Normal (cache) |
| 404 | Page non trouvée | Corriger si fréquent |
| 500 | Erreur serveur | Urgent à corriger |
| 503 | Service indisponible | Vérifier le serveur |
Outils d’analyse
Solutions gratuites :
- GoAccess : Outil en ligne de commande, rapide, génère des rapports HTML. Parfait pour une analyse ponctuelle.
- Excel/Google Sheets : Pour les petits sites, exporter les logs et les analyser manuellement. Limité mais gratuit.
Solutions professionnelles :
| Outil | Prix | Pour qui |
|---|---|---|
| Screaming Frog Log Analyzer | ~150€/an | Sites moyens, bon rapport qualité/prix |
| Oncrawl | À partir de 69€/mois | Sites importants, analyse avancée |
| Botify | Sur devis | Enterprise, très gros volumes |
| JetOctopus | À partir de 35€/mois | Bon compromis features/prix |
Fréquence d’analyse
| Taille du site | Fréquence | Focus |
|---|---|---|
| Petit (<1000 pages) | Mensuelle | Pages clés crawlées, pas d’erreurs |
| Moyen (1000-50000) | Hebdomadaire | Crawl budget, patterns anormaux |
| Grand (>50000) | Quotidienne | Monitoring automatisé, alertes |
Métriques à suivre
Les KPIs essentiels :
- Hits Googlebot/jour : Doit être stable ou croissant. Une chute de plus de 30% mérite investigation.
- Pourcentage de pages crawlées : Vos pages importantes doivent être crawlées régulièrement.
- Ratio codes 200 vs erreurs : Visez plus de 95% de 200.
- Temps de réponse moyen : Doit rester sous 500ms. Au-delà de 2 secondes, c’est problématique.
Signaux d’alerte
Quelques situations qui doivent vous alerter :
- Chute brutale du crawl : Googlebot vient soudainement beaucoup moins. Problème technique ? Pénalité ?
- Explosion des 404 : Migration ratée ou attaque de negative SEO ?
- Crawl concentré sur des pages inutiles : Crawl budget gaspillé, pages importantes ignorées.
- Temps de réponse qui explose : Serveur en souffrance, risque de perte de rankings.
Bonnes pratiques
- Archivez vos logs : Gardez au moins 3-6 mois d’historique pour pouvoir comparer.
- Croisez avec Search Console : Les logs montrent le crawl, GSC montre l’indexation. Les deux sont complémentaires.
- Analysez après chaque changement majeur : Migration, refonte, grosse mise à jour technique.
- Segmentez par bot : Le comportement de Googlebot n’est pas le même que celui de Bingbot.
- Automatisez les alertes : Pour les gros sites, configurez des alertes sur les métriques critiques.
Conclusion
L’analyse de logs est le seul moyen de voir ce que les robots font vraiment sur votre site. C’est un outil indispensable pour les sites de taille moyenne à grande, et un excellent complément à Search Console pour tous les sites. Si vous n’avez jamais regardé vos logs, vous passez peut-être à côté de problèmes invisibles autrement.