Définition
Allow est une directive du fichier robots.txt qui autorise explicitement les robots d’exploration à accéder à certaines URLs ou répertoires. Elle est principalement utilisée pour créer des exceptions au sein de règles Disallow plus larges.
Syntaxe
User-agent: *
Disallow: /admin/
Allow: /admin/public/
Fonctionnement
Ordre de priorité
La règle la plus spécifique (chemin le plus long) prend généralement la priorité.
Exemple
User-agent: Googlebot
Disallow: /dossier/
Allow: /dossier/page-importante.html
Ici, /dossier/page-importante.html sera accessible malgré le Disallow sur /dossier/.
Cas d’usage courants
Autoriser des fichiers dans un dossier bloqué
Disallow: /templates/
Allow: /templates/*.css
Allow: /templates/*.js
Autoriser une section publique
Disallow: /membres/
Allow: /membres/inscription/
Fichiers de ressources
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Compatibilité
Googlebot
Supporte pleinement la directive Allow.
Autres bots
La plupart des crawlers majeurs (Bingbot, etc.) la supportent aussi.
Bots anciens
Certains bots plus anciens peuvent ne pas reconnaître Allow.
Bonnes pratiques
Spécificité
Utilisez des chemins précis pour éviter les ambiguïtés.
Test
Vérifiez avec l’outil de test robots.txt de Search Console.
Documentation
Commentez vos règles pour la maintenance.
# Autoriser les ressources CSS/JS pour le rendu
Allow: /assets/
Erreurs courantes
Ordre incorrect
# Peut ne pas fonctionner comme prévu
Allow: /dossier/page.html
Disallow: /dossier/
Mettez le Disallow avant le Allow pour plus de clarté.
Oublier le slash
# Correct
Allow: /images/
# Peut être ambigu
Allow: images/
Alternatives
Meta robots
Pour des pages spécifiques, utilisez la balise meta robots.
X-Robots-Tag
Pour des fichiers non-HTML (PDF, images).
Conclusion
La directive Allow est essentielle pour créer des exceptions précises dans votre fichier robots.txt. Elle permet de bloquer des répertoires entiers tout en autorisant l’accès à des ressources spécifiques importantes. Testez toujours vos règles avec les outils de Search Console pour éviter de bloquer accidentellement du contenu important.