← Retour au lexique
⚙️ SEO Technique

Robots.txt

Le fichier robots.txt indique aux robots des moteurs de recherche quelles pages ils peuvent ou ne peuvent pas explorer sur un site web.

Définition

Le robots.txt est un fichier texte placé à la racine d’un site web (exemple.com/robots.txt) qui donne des instructions aux robots d’exploration des moteurs de recherche. Il indique quelles parties du site peuvent être crawlées et lesquelles doivent être ignorées.

À quoi sert le robots.txt ?

FonctionExplication
Gérer le crawlOrienter les robots vers les pages importantes
Économiser le crawl budgetÉviter de gaspiller des ressources sur des pages inutiles
Protéger des ressourcesBloquer l’accès à des zones non publiques
Indiquer le sitemapSignaler l’emplacement du sitemap XML

Structure de base

Le robots.txt utilise une syntaxe simple avec quelques directives :

DirectiveRôleExemple
User-agentSpécifie le robot concernéUser-agent: Googlebot
DisallowInterdit l’accès à un cheminDisallow: /admin/
AllowAutorise explicitement (override)Allow: /admin/public/
SitemapIndique l’URL du sitemapSitemap: https://site.com/sitemap.xml
Crawl-delayDélai entre requêtes (pas Google)Crawl-delay: 10

Exemples de robots.txt

Site standard

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /private/

Sitemap: https://example.com/sitemap.xml

Site e-commerce

User-agent: *
# Pages techniques
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /api/

# Filtres et tri (évite le duplicate content)
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=

# Recherche interne
Disallow: /search?

Sitemap: https://shop.com/sitemap.xml

WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/

# Éviter duplication
Disallow: /tag/
Disallow: /author/
Disallow: /?s=

Sitemap: https://site.com/sitemap_index.xml

Règles de syntaxe

Wildcards (caractères génériques)

PatternSignificationExemple
*N’importe quelle séquenceDisallow: /*.pdf bloque tous les PDF
$Fin d’URLDisallow: /*.pdf$ bloque uniquement les .pdf

Priorité des règles

  1. Le User-agent le plus spécifique gagne sur *
  2. La règle la plus longue (spécifique) gagne
  3. Allow peut override Disallow si plus spécifique

Exemple :

User-agent: *
Disallow: /dossier/
Allow: /dossier/public/

/dossier/public/page.html sera crawlé car Allow est plus spécifique.

Erreurs fréquentes à éviter

Blocages dangereux

ErreurConséquenceSolution
Disallow: /Bloque TOUT le siteNe jamais faire sauf maintenance
Bloquer CSS/JSGoogle ne peut pas rendre la pageToujours autoriser les assets
Bloquer le sitemapGoogle ne trouve pas vos pagesNe jamais bloquer

Erreurs de syntaxe

ErreurProblèmeCorrection
Disallow: adminManque le / initialDisallow: /admin/
Disallow: /a/ /b/Plusieurs valeurs sur une ligneUne directive par ligne
Fichier mal encodéCaractères non reconnusUtiliser UTF-8 sans BOM

Ce que robots.txt ne fait PAS

Idée reçueRéalité
”Ça empêche l’indexation”Non ! Utilisez noindex pour ça
”Ça protège les données sensibles”Non ! Les pages restent accessibles
”Ça supprime des pages de l’index”Non ! Ça empêche juste le crawl

Important : Si une page est bloquée par robots.txt mais reçoit des backlinks, Google peut quand même l’indexer (sans voir son contenu).

Robots.txt vs Meta robots

Robots.txtMeta robots / X-Robots-Tag
Bloque le crawlContrôle l’indexation
Fichier uniquePar page
Économise le crawl budgetN’économise rien
Ne désindexe pasPeut désindexer (noindex)

Pour désindexer une page :

  1. Ne PAS bloquer dans robots.txt
  2. Ajouter <meta name="robots" content="noindex">
  3. Google doit pouvoir crawler pour voir le noindex

Tester votre robots.txt

Outils de test

OutilUtilisation
Google Search ConsoleTest officiel Google (Paramètres > robots.txt)
Bing Webmaster ToolsTest pour Bingbot
Screaming FrogVérification lors d’un crawl

Vérifications essentielles

  1. Le fichier est accessible à votresite.com/robots.txt
  2. Pas de blocage accidentel des pages importantes
  3. CSS et JavaScript sont autorisés
  4. Le sitemap est déclaré

Robots.txt et crawl budget

Pour les gros sites (>10 000 pages), le robots.txt aide à optimiser le crawl budget :

ActionImpact
Bloquer les filtres e-commerceÉconomise des milliers de crawls
Bloquer la pagination profondeConcentre le crawl sur les pages importantes
Bloquer les paramètres de sessionÉvite les doublons
Bloquer les pages techniquesFocus sur le contenu

User-agents principaux

RobotUser-agentCe qu’il crawle
GoogleGooglebotWeb général
Google ImagesGooglebot-ImageImages
Google AdsAdsBot-GoogleLanding pages Ads
BingBingbotWeb Bing
YahooSlurpWeb Yahoo

Bonnes pratiques

  1. Gardez-le simple : Ne compliquez pas inutilement
  2. Testez avant de déployer : Une erreur peut désindexer votre site
  3. Ne bloquez jamais Googlebot sans raison : Perte de trafic garantie
  4. Documentez vos règles : Ajoutez des commentaires avec #
  5. Vérifiez régulièrement : Après chaque modification technique du site

Conclusion

Le robots.txt est un outil simple mais puissant pour guider les moteurs de recherche. Il ne doit pas être utilisé pour cacher du contenu ou empêcher l’indexation (utilisez noindex pour ça), mais plutôt pour optimiser le crawl et protéger votre crawl budget. Un robots.txt mal configuré peut avoir des conséquences désastreuses sur votre SEO.