Définition
Un fichier de log (log file ou journal d’accès) est un fichier texte généré par le serveur web qui enregistre chaque requête HTTP reçue. Il contient des informations sur qui a accédé à quoi, quand, et comment.
L’analyse des logs est essentielle pour comprendre comment Google crawle votre site.
Contenu d’une ligne de log
Une entrée de log typique contient :
- Adresse IP : Identifie le visiteur ou le bot
- Date et heure : Timestamp de la requête
- Méthode HTTP : GET, POST, etc.
- URL demandée : La page ou ressource requise
- Code de statut : 200, 404, 500, etc.
- User-agent : Navigateur ou bot identifié
- Referrer : Page d’origine du visiteur
- Taille de la réponse : En octets
Exemple de ligne de log
66.249.66.1 - - [26/Nov/2024:10:15:32 +0100] "GET /page.html HTTP/1.1" 200 4523 "-" "Googlebot/2.1"
Pourquoi analyser les logs
Voir ce que voit Google
Les logs révèlent exactement quelles pages Googlebot visite, à quelle fréquence, et quelles erreurs il rencontre.
Problèmes invisibles ailleurs
Certains problèmes n’apparaissent que dans les logs :
- Pages crawlées mais jamais indexées
- Erreurs serveur intermittentes
- Ressources bloquées
Optimisation du crawl budget
Identifiez le gaspillage : pages inutiles crawlées, ressources non essentielles.
Détection de problèmes
Pics d’erreurs 5xx, boucles de redirections, pages lentes.
Analyse pour le SEO
Identifier les bots
Filtrez par user-agent pour voir Googlebot, Bingbot, etc.
User-agents Google courants :
- Googlebot/2.1 (desktop)
- Googlebot-Mobile
- Googlebot-Image
Questions à se poser
- Google crawle-t-il mes pages importantes ?
- À quelle fréquence ?
- Y a-t-il des erreurs lors du crawl ?
- Crawle-t-il des pages inutiles ?
- Les nouvelles pages sont-elles découvertes rapidement ?
Métriques clés
- Fréquence de crawl par page/section
- Distribution des codes de statut
- Temps de réponse serveur
- Pages crawlées vs indexées
Outils d’analyse de logs
Outils spécialisés SEO
- Screaming Frog Log Analyzer : Analyse orientée SEO
- Oncrawl : Analyse de logs intégrée
- Botify : Plateforme complète avec logs
- JetOctopus : Visualisation du comportement des bots
Outils génériques
- AWStats : Analyse statistique classique
- GoAccess : Analyse en temps réel
- ELK Stack : Pour les gros volumes
Analyse manuelle
Pour des vérifications ponctuelles, grep/awk en ligne de commande.
Problèmes courants détectés
Crawl gaspillé
- Pages paginées infinies
- Paramètres d’URL créant des doublons
- Ressources CSS/JS crawlées excessivement
Erreurs de crawl
- 404 sur des pages qui devraient exister
- 5xx intermittents non visibles autrement
- Redirections en chaîne
Pages ignorées
- Pages importantes jamais crawlées
- Nouvelles pages non découvertes
Limites
Volume de données
Les sites à fort trafic génèrent des logs massifs, difficiles à stocker et analyser.
Bots mal identifiés
Certains bots se font passer pour des navigateurs ou cachent leur identité.
Données partielles
Pas d’info sur ce que Google fait après avoir crawlé (indexation, ranking).
Bonnes pratiques
Conserver les logs
Gardez au minimum 3-6 mois d’historique pour les analyses.
Automatiser l’analyse
Mettez en place des alertes sur les anomalies (pic d’erreurs, chute de crawl).
Croiser avec d’autres données
Combinez logs + Search Console + analytics pour une vue complète.
Conclusion
L’analyse des fichiers de log est une technique SEO avancée mais précieuse. Elle révèle la réalité du crawl de votre site, au-delà de ce que Search Console montre. Pour les sites importants ou complexes, c’est un outil indispensable pour optimiser le crawl budget et détecter les problèmes invisibles autrement.