Disallow (Robots.txt)

Définition

Disallow est une directive utilisée dans le fichier robots.txt pour indiquer aux robots d’exploration (crawlers) qu’ils ne doivent pas accéder à certaines URLs, répertoires ou fichiers d’un site web. C’est un moyen de gérer le crawl budget et d’empêcher l’indexation de contenus non désirés.

Important : Disallow empêche le crawl, mais ne garantit pas la non-indexation.

Syntaxe de base

Structure du robots.txt

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/

Composants

User-agent : Le robot ciblé (* = tous)
Disallow : Chemin à bloquer
Allow : Exception (priorité sur Disallow)

Exemples courants de Disallow

Bloquer un répertoire

Disallow: /admin/

Bloque /admin/ et tout ce qu’il contient.

Bloquer un fichier spécifique

Disallow: /page-confidentielle.html

Bloquer un type de fichier

Disallow: /*.pdf$

Bloque tous les fichiers PDF.

Bloquer les paramètres d’URL

Disallow: /*?

Bloque toutes les URLs avec paramètres.

Bloquer tout le site

Disallow: /

Ne rien bloquer

Disallow:

(ligne vide après Disallow)

Cas d’usage SEO

Pages d’administration

Disallow: /wp-admin/
Disallow: /admin/

Pages de résultats de recherche interne

Disallow: /search
Disallow: /*?s=

Pages de filtre et tri (e-commerce)

Disallow: /*?sort=
Disallow: /*?filter=

Pages de staging ou test

Disallow: /staging/
Disallow: /test/

Pages dupliquées

Disallow: /print/
Disallow: /*?print=

Différence entre Disallow et Noindex

Aspect	Disallow	Noindex
Effet	Empêche le crawl	Empêche l’indexation
Garantie	Non (Google peut indexer via liens)	Oui (si crawlé)
Méthode	robots.txt	Meta tag ou header HTTP
Link equity	Peut bloquer la transmission	Transmet le link equity

Le piège

Si vous bloquez une page via Disallow mais que d’autres sites font des liens vers elle, Google peut l’indexer quand même (sans voir son contenu).

Solution : Pour vraiment désindexer, utilisez noindex ET ne bloquez pas avec Disallow (pour que Google voie le noindex).

Patterns et wildcards

Astérisque (*)

Correspond à n’importe quelle séquence de caractères.

Disallow: /category/*/feed/

Bloque les feeds de toutes les catégories.

Dollar ($)

Indique la fin de l’URL.

Disallow: /*.php$

Bloque les URLs finissant par .php.

User-agents spécifiques

Googlebot

User-agent: Googlebot
Disallow: /private/

Googlebot-Image

User-agent: Googlebot-Image
Disallow: /images/

Bingbot

User-agent: Bingbot
Disallow: /

Tous les robots

User-agent: *
Disallow: /admin/

Vérifier son robots.txt

Emplacement

Le fichier doit être à la racine : https://example.com/robots.txt

Outil de test Search Console

Google Search Console > Paramètres > robots.txt > Testeur de robots.txt

Vérifier le blocage d’une URL

Entrez l’URL dans le testeur pour voir si elle est bloquée.

Erreurs courantes

Bloquer des ressources CSS/JS

Empêche Google de rendre correctement vos pages.

# À éviter
Disallow: /wp-content/

Bloquer involontairement le site entier

Une erreur de syntaxe peut bloquer tout le site.

Oublier le slash

Disallow: admin    # Incorrect
Disallow: /admin/  # Correct

Disallow pour désindexer

Comme vu, Disallow ne garantit pas la désindexation. Utilisez noindex.

Fichier inaccessible

Si robots.txt renvoie une erreur 5xx, Google considère que tout est autorisé.

Bonnes pratiques

Tester avant déploiement

Utilisez le testeur de Search Console avant toute modification.

Ajouter le sitemap

Sitemap: https://example.com/sitemap.xml

Commenter votre fichier

# Bloquer l'admin WordPress
Disallow: /wp-admin/

Versionner les changements

Gardez un historique des modifications pour pouvoir revenir en arrière.

Surveiller les erreurs de crawl

Vérifiez dans Search Console que vous ne bloquez pas de pages importantes.

Conclusion

La directive Disallow est un outil essentiel pour gérer le crawl de votre site. Utilisez-la pour bloquer les pages d’administration, les doublons, et les contenus non destinés à l’indexation. Mais souvenez-vous : Disallow ≠ Noindex. Pour vraiment empêcher l’indexation, combinez les deux stratégies intelligemment. Et testez toujours vos modifications avant de les déployer.

Découvrez Cuik Pro

Cuik Pro, c'est :