← Retour au lexique
⚙️ SEO Technique

Analyse de logs SEO

L'analyse de logs SEO consiste à examiner les fichiers journaux du serveur pour comprendre comment les robots des moteurs de recherche explorent votre site.

Définition

L’analyse de logs SEO consiste à examiner les fichiers journaux (logs) de votre serveur web pour observer le comportement réel des robots d’exploration. Contrairement aux données de Search Console qui sont échantillonnées et agrégées, les logs montrent exactement quelles pages Googlebot visite, à quelle fréquence, et quelles erreurs il rencontre.

C’est la seule façon de voir ce que Google fait vraiment sur votre site.

Pourquoi analyser les logs ?

Search Console vous dit ce que Google indexe. Les logs vous disent ce que Google crawle. La différence est cruciale.

Avec les logs, vous pouvez :

  • Voir où Googlebot passe son temps : Est-ce qu’il crawle vos pages importantes ou gaspille son budget sur des pages inutiles ?
  • Détecter les pages orphelines : Des pages qui ne reçoivent jamais la visite de Googlebot car aucun lien interne ne pointe vers elles.
  • Identifier les erreurs invisibles : Certaines erreurs 500 ou timeout n’apparaissent jamais dans Search Console.
  • Comprendre la fréquence de crawl : Googlebot passe-t-il tous les jours ? Toutes les semaines ? Jamais ?

Que contient une ligne de log ?

Voici une ligne de log Apache typique :

66.249.64.1 - - [15/Mar/2024:10:23:45 +0100] "GET /products/seo-tools HTTP/1.1" 200 5432 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Cette ligne nous dit que Googlebot (IP 66.249.64.1) a demandé la page /products/seo-tools le 15 mars à 10h23, a reçu une réponse 200 (succès) de 5432 octets.

Les éléments clés à extraire :

  • L’IP pour identifier le bot
  • La date/heure pour analyser les patterns
  • L’URL demandée pour savoir ce qui est crawlé
  • Le code HTTP pour détecter les erreurs
  • Le User-Agent pour confirmer l’identité du robot

Identifier Googlebot dans les logs

Googlebot utilise des IPs dans la plage 66.249.x.x et s’identifie avec un User-Agent contenant “Googlebot”. Mais attention : des bots malveillants peuvent se faire passer pour Googlebot.

Pour vérifier qu’un bot est vraiment Googlebot :

  1. Faire un reverse DNS sur l’IP
  2. Vérifier que le domaine se termine par .google.com ou .googlebot.com
  3. Confirmer avec un DNS direct

Les autres bots à surveiller : Bingbot (40.77.x.x), AhrefsBot, SemrushBot, et les éventuels bots malveillants qui consomment vos ressources.

Les problèmes révélés par l’analyse de logs

Crawl budget gaspillé

C’est le problème le plus fréquent. Googlebot passe son temps sur des pages sans valeur SEO :

  • Pages de filtres e-commerce : Des milliers de combinaisons /category?color=red&size=M&sort=price crawlées alors qu’elles n’ont pas vocation à être indexées.
  • Pagination profonde : Googlebot qui crawle /blog/page/47/ alors que personne n’ira jamais aussi loin.
  • Paramètres de tracking : Les mêmes pages crawlées avec ?utm_source=newsletter, ?utm_source=facebook, etc.
  • Pages techniques : Admin, login, CGV, mentions légales crawlées en boucle.

Pages importantes jamais crawlées

L’inverse du problème précédent : vos meilleures pages ne reçoivent pas de visite de Googlebot. Causes possibles :

  • Aucun lien interne vers ces pages
  • Pages trop profondes dans l’architecture (plus de 4 clics depuis l’accueil)
  • Blocage involontaire dans le robots.txt

Erreurs récurrentes

Les logs révèlent des patterns d’erreurs :

  • Un même 404 crawlé des dizaines de fois = un lien cassé quelque part sur votre site
  • Des erreurs 500 sur une section précise = un problème applicatif à corriger
  • Des 503 fréquents = serveur surchargé ou mal dimensionné

Codes HTTP à connaître

CodeSignificationAction
200SuccèsTout va bien
301/302RedirectionVérifier qu’il n’y a pas de chaînes
304Non modifiéNormal (cache)
404Page non trouvéeCorriger si fréquent
500Erreur serveurUrgent à corriger
503Service indisponibleVérifier le serveur

Outils d’analyse

Solutions gratuites :

  • GoAccess : Outil en ligne de commande, rapide, génère des rapports HTML. Parfait pour une analyse ponctuelle.
  • Excel/Google Sheets : Pour les petits sites, exporter les logs et les analyser manuellement. Limité mais gratuit.

Solutions professionnelles :

OutilPrixPour qui
Screaming Frog Log Analyzer~150€/anSites moyens, bon rapport qualité/prix
OncrawlÀ partir de 69€/moisSites importants, analyse avancée
BotifySur devisEnterprise, très gros volumes
JetOctopusÀ partir de 35€/moisBon compromis features/prix

Fréquence d’analyse

Taille du siteFréquenceFocus
Petit (<1000 pages)MensuellePages clés crawlées, pas d’erreurs
Moyen (1000-50000)HebdomadaireCrawl budget, patterns anormaux
Grand (>50000)QuotidienneMonitoring automatisé, alertes

Métriques à suivre

Les KPIs essentiels :

  • Hits Googlebot/jour : Doit être stable ou croissant. Une chute de plus de 30% mérite investigation.
  • Pourcentage de pages crawlées : Vos pages importantes doivent être crawlées régulièrement.
  • Ratio codes 200 vs erreurs : Visez plus de 95% de 200.
  • Temps de réponse moyen : Doit rester sous 500ms. Au-delà de 2 secondes, c’est problématique.

Signaux d’alerte

Quelques situations qui doivent vous alerter :

  • Chute brutale du crawl : Googlebot vient soudainement beaucoup moins. Problème technique ? Pénalité ?
  • Explosion des 404 : Migration ratée ou attaque de negative SEO ?
  • Crawl concentré sur des pages inutiles : Crawl budget gaspillé, pages importantes ignorées.
  • Temps de réponse qui explose : Serveur en souffrance, risque de perte de rankings.

Bonnes pratiques

  1. Archivez vos logs : Gardez au moins 3-6 mois d’historique pour pouvoir comparer.
  2. Croisez avec Search Console : Les logs montrent le crawl, GSC montre l’indexation. Les deux sont complémentaires.
  3. Analysez après chaque changement majeur : Migration, refonte, grosse mise à jour technique.
  4. Segmentez par bot : Le comportement de Googlebot n’est pas le même que celui de Bingbot.
  5. Automatisez les alertes : Pour les gros sites, configurez des alertes sur les métriques critiques.

Conclusion

L’analyse de logs est le seul moyen de voir ce que les robots font vraiment sur votre site. C’est un outil indispensable pour les sites de taille moyenne à grande, et un excellent complément à Search Console pour tous les sites. Si vous n’avez jamais regardé vos logs, vous passez peut-être à côté de problèmes invisibles autrement.