Définition
Disallow est une directive utilisée dans le fichier robots.txt pour indiquer aux robots d’exploration (crawlers) qu’ils ne doivent pas accéder à certaines URLs, répertoires ou fichiers d’un site web. C’est un moyen de gérer le crawl budget et d’empêcher l’indexation de contenus non désirés.
Important : Disallow empêche le crawl, mais ne garantit pas la non-indexation.
Syntaxe de base
Structure du robots.txt
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/
Composants
- User-agent : Le robot ciblé (* = tous)
- Disallow : Chemin à bloquer
- Allow : Exception (priorité sur Disallow)
Exemples courants de Disallow
Bloquer un répertoire
Disallow: /admin/
Bloque /admin/ et tout ce qu’il contient.
Bloquer un fichier spécifique
Disallow: /page-confidentielle.html
Bloquer un type de fichier
Disallow: /*.pdf$
Bloque tous les fichiers PDF.
Bloquer les paramètres d’URL
Disallow: /*?
Bloque toutes les URLs avec paramètres.
Bloquer tout le site
Disallow: /
Ne rien bloquer
Disallow:
(ligne vide après Disallow)
Cas d’usage SEO
Pages d’administration
Disallow: /wp-admin/
Disallow: /admin/
Pages de résultats de recherche interne
Disallow: /search
Disallow: /*?s=
Pages de filtre et tri (e-commerce)
Disallow: /*?sort=
Disallow: /*?filter=
Pages de staging ou test
Disallow: /staging/
Disallow: /test/
Pages dupliquées
Disallow: /print/
Disallow: /*?print=
Différence entre Disallow et Noindex
| Aspect | Disallow | Noindex |
|---|---|---|
| Effet | Empêche le crawl | Empêche l’indexation |
| Garantie | Non (Google peut indexer via liens) | Oui (si crawlé) |
| Méthode | robots.txt | Meta tag ou header HTTP |
| Link equity | Peut bloquer la transmission | Transmet le link equity |
Le piège
Si vous bloquez une page via Disallow mais que d’autres sites font des liens vers elle, Google peut l’indexer quand même (sans voir son contenu).
Solution : Pour vraiment désindexer, utilisez noindex ET ne bloquez pas avec Disallow (pour que Google voie le noindex).
Patterns et wildcards
Astérisque (*)
Correspond à n’importe quelle séquence de caractères.
Disallow: /category/*/feed/
Bloque les feeds de toutes les catégories.
Dollar ($)
Indique la fin de l’URL.
Disallow: /*.php$
Bloque les URLs finissant par .php.
User-agents spécifiques
Googlebot
User-agent: Googlebot
Disallow: /private/
Googlebot-Image
User-agent: Googlebot-Image
Disallow: /images/
Bingbot
User-agent: Bingbot
Disallow: /
Tous les robots
User-agent: *
Disallow: /admin/
Vérifier son robots.txt
Emplacement
Le fichier doit être à la racine : https://example.com/robots.txt
Outil de test Search Console
Google Search Console > Paramètres > robots.txt > Testeur de robots.txt
Vérifier le blocage d’une URL
Entrez l’URL dans le testeur pour voir si elle est bloquée.
Erreurs courantes
Bloquer des ressources CSS/JS
Empêche Google de rendre correctement vos pages.
# À éviter
Disallow: /wp-content/
Bloquer involontairement le site entier
Une erreur de syntaxe peut bloquer tout le site.
Oublier le slash
Disallow: admin # Incorrect
Disallow: /admin/ # Correct
Disallow pour désindexer
Comme vu, Disallow ne garantit pas la désindexation. Utilisez noindex.
Fichier inaccessible
Si robots.txt renvoie une erreur 5xx, Google considère que tout est autorisé.
Bonnes pratiques
Tester avant déploiement
Utilisez le testeur de Search Console avant toute modification.
Ajouter le sitemap
Sitemap: https://example.com/sitemap.xml
Commenter votre fichier
# Bloquer l'admin WordPress
Disallow: /wp-admin/
Versionner les changements
Gardez un historique des modifications pour pouvoir revenir en arrière.
Surveiller les erreurs de crawl
Vérifiez dans Search Console que vous ne bloquez pas de pages importantes.
Conclusion
La directive Disallow est un outil essentiel pour gérer le crawl de votre site. Utilisez-la pour bloquer les pages d’administration, les doublons, et les contenus non destinés à l’indexation. Mais souvenez-vous : Disallow ≠ Noindex. Pour vraiment empêcher l’indexation, combinez les deux stratégies intelligemment. Et testez toujours vos modifications avant de les déployer.