← Retour au lexique
⚙️ SEO Technique

Fichier de log (Log File)

Les fichiers de log enregistrent toutes les requêtes vers un serveur web. Leur analyse révèle le comportement de Googlebot et les problèmes de crawl.

Définition

Un fichier de log (log file ou journal d’accès) est un fichier texte généré par le serveur web qui enregistre chaque requête HTTP reçue. Il contient des informations sur qui a accédé à quoi, quand, et comment.

L’analyse des logs est essentielle pour comprendre comment Google crawle votre site.

Contenu d’une ligne de log

Une entrée de log typique contient :

  • Adresse IP : Identifie le visiteur ou le bot
  • Date et heure : Timestamp de la requête
  • Méthode HTTP : GET, POST, etc.
  • URL demandée : La page ou ressource requise
  • Code de statut : 200, 404, 500, etc.
  • User-agent : Navigateur ou bot identifié
  • Referrer : Page d’origine du visiteur
  • Taille de la réponse : En octets

Exemple de ligne de log

66.249.66.1 - - [26/Nov/2024:10:15:32 +0100] "GET /page.html HTTP/1.1" 200 4523 "-" "Googlebot/2.1"

Pourquoi analyser les logs

Voir ce que voit Google

Les logs révèlent exactement quelles pages Googlebot visite, à quelle fréquence, et quelles erreurs il rencontre.

Problèmes invisibles ailleurs

Certains problèmes n’apparaissent que dans les logs :

  • Pages crawlées mais jamais indexées
  • Erreurs serveur intermittentes
  • Ressources bloquées

Optimisation du crawl budget

Identifiez le gaspillage : pages inutiles crawlées, ressources non essentielles.

Détection de problèmes

Pics d’erreurs 5xx, boucles de redirections, pages lentes.

Analyse pour le SEO

Identifier les bots

Filtrez par user-agent pour voir Googlebot, Bingbot, etc.

User-agents Google courants :

  • Googlebot/2.1 (desktop)
  • Googlebot-Mobile
  • Googlebot-Image

Questions à se poser

  • Google crawle-t-il mes pages importantes ?
  • À quelle fréquence ?
  • Y a-t-il des erreurs lors du crawl ?
  • Crawle-t-il des pages inutiles ?
  • Les nouvelles pages sont-elles découvertes rapidement ?

Métriques clés

  • Fréquence de crawl par page/section
  • Distribution des codes de statut
  • Temps de réponse serveur
  • Pages crawlées vs indexées

Outils d’analyse de logs

Outils spécialisés SEO

  • Screaming Frog Log Analyzer : Analyse orientée SEO
  • Oncrawl : Analyse de logs intégrée
  • Botify : Plateforme complète avec logs
  • JetOctopus : Visualisation du comportement des bots

Outils génériques

  • AWStats : Analyse statistique classique
  • GoAccess : Analyse en temps réel
  • ELK Stack : Pour les gros volumes

Analyse manuelle

Pour des vérifications ponctuelles, grep/awk en ligne de commande.

Problèmes courants détectés

Crawl gaspillé

  • Pages paginées infinies
  • Paramètres d’URL créant des doublons
  • Ressources CSS/JS crawlées excessivement

Erreurs de crawl

  • 404 sur des pages qui devraient exister
  • 5xx intermittents non visibles autrement
  • Redirections en chaîne

Pages ignorées

  • Pages importantes jamais crawlées
  • Nouvelles pages non découvertes

Limites

Volume de données

Les sites à fort trafic génèrent des logs massifs, difficiles à stocker et analyser.

Bots mal identifiés

Certains bots se font passer pour des navigateurs ou cachent leur identité.

Données partielles

Pas d’info sur ce que Google fait après avoir crawlé (indexation, ranking).

Bonnes pratiques

Conserver les logs

Gardez au minimum 3-6 mois d’historique pour les analyses.

Automatiser l’analyse

Mettez en place des alertes sur les anomalies (pic d’erreurs, chute de crawl).

Croiser avec d’autres données

Combinez logs + Search Console + analytics pour une vue complète.

Conclusion

L’analyse des fichiers de log est une technique SEO avancée mais précieuse. Elle révèle la réalité du crawl de votre site, au-delà de ce que Search Console montre. Pour les sites importants ou complexes, c’est un outil indispensable pour optimiser le crawl budget et détecter les problèmes invisibles autrement.