Fichier de log (Log File)

Définition

Un fichier de log (log file ou journal d’accès) est un fichier texte généré par le serveur web qui enregistre chaque requête HTTP reçue. Il contient des informations sur qui a accédé à quoi, quand, et comment.

L’analyse des logs est essentielle pour comprendre comment Google crawle votre site.

Contenu d’une ligne de log

Une entrée de log typique contient :

Adresse IP : Identifie le visiteur ou le bot
Date et heure : Timestamp de la requête
Méthode HTTP : GET, POST, etc.
URL demandée : La page ou ressource requise
Code de statut : 200, 404, 500, etc.
User-agent : Navigateur ou bot identifié
Referrer : Page d’origine du visiteur
Taille de la réponse : En octets

Exemple de ligne de log

66.249.66.1 - - [26/Nov/2024:10:15:32 +0100] "GET /page.html HTTP/1.1" 200 4523 "-" "Googlebot/2.1"

Pourquoi analyser les logs

Voir ce que voit Google

Les logs révèlent exactement quelles pages Googlebot visite, à quelle fréquence, et quelles erreurs il rencontre.

Problèmes invisibles ailleurs

Certains problèmes n’apparaissent que dans les logs :

Pages crawlées mais jamais indexées
Erreurs serveur intermittentes
Ressources bloquées

Optimisation du crawl budget

Identifiez le gaspillage : pages inutiles crawlées, ressources non essentielles.

Détection de problèmes

Pics d’erreurs 5xx, boucles de redirections, pages lentes.

Analyse pour le SEO

Identifier les bots

Filtrez par user-agent pour voir Googlebot, Bingbot, etc.

User-agents Google courants :

Googlebot/2.1 (desktop)
Googlebot-Mobile
Googlebot-Image

Questions à se poser

Google crawle-t-il mes pages importantes ?
À quelle fréquence ?
Y a-t-il des erreurs lors du crawl ?
Crawle-t-il des pages inutiles ?
Les nouvelles pages sont-elles découvertes rapidement ?

Métriques clés

Fréquence de crawl par page/section
Distribution des codes de statut
Temps de réponse serveur
Pages crawlées vs indexées

Outils d’analyse de logs

Outils spécialisés SEO

Screaming Frog Log Analyzer : Analyse orientée SEO
Oncrawl : Analyse de logs intégrée
Botify : Plateforme complète avec logs
JetOctopus : Visualisation du comportement des bots

Outils génériques

AWStats : Analyse statistique classique
GoAccess : Analyse en temps réel
ELK Stack : Pour les gros volumes

Analyse manuelle

Pour des vérifications ponctuelles, grep/awk en ligne de commande.

Problèmes courants détectés

Crawl gaspillé

Pages paginées infinies
Paramètres d’URL créant des doublons
Ressources CSS/JS crawlées excessivement

Erreurs de crawl

404 sur des pages qui devraient exister
5xx intermittents non visibles autrement
Redirections en chaîne

Pages ignorées

Pages importantes jamais crawlées
Nouvelles pages non découvertes

Limites

Volume de données

Les sites à fort trafic génèrent des logs massifs, difficiles à stocker et analyser.

Bots mal identifiés

Certains bots se font passer pour des navigateurs ou cachent leur identité.

Données partielles

Pas d’info sur ce que Google fait après avoir crawlé (indexation, ranking).

Bonnes pratiques

Conserver les logs

Gardez au minimum 3-6 mois d’historique pour les analyses.

Automatiser l’analyse

Mettez en place des alertes sur les anomalies (pic d’erreurs, chute de crawl).

Croiser avec d’autres données

Combinez logs + Search Console + analytics pour une vue complète.

Conclusion

L’analyse des fichiers de log est une technique SEO avancée mais précieuse. Elle révèle la réalité du crawl de votre site, au-delà de ce que Search Console montre. Pour les sites importants ou complexes, c’est un outil indispensable pour optimiser le crawl budget et détecter les problèmes invisibles autrement.

Découvrez Cuik Pro

Cuik Pro, c'est :