Définition
Le X-Robots-Tag est un en-tête HTTP (header) qui permet de donner des directives d’indexation aux robots des moteurs de recherche. Il fonctionne comme la balise meta robots, mais s’applique à tous les types de fichiers, pas seulement aux pages HTML.
C’est la solution pour contrôler l’indexation des PDF, images, vidéos et autres ressources.
Différence avec meta robots
Meta robots
<meta name="robots" content="noindex, nofollow">
- Uniquement dans le
<head>HTML - Ne fonctionne que pour les pages HTML
X-Robots-Tag
X-Robots-Tag: noindex, nofollow
- En-tête HTTP
- Fonctionne pour tous les fichiers (PDF, images, JS, CSS, etc.)
Syntaxe
Format de base
X-Robots-Tag: directive
Avec plusieurs directives
X-Robots-Tag: noindex, nofollow
Cibler un robot spécifique
X-Robots-Tag: googlebot: noindex
X-Robots-Tag: bingbot: noindex
Directives disponibles
noindex
Ne pas indexer le fichier dans les résultats de recherche.
nofollow
Ne pas suivre les liens contenus dans le fichier.
noarchive
Ne pas afficher de version en cache.
nosnippet
Ne pas afficher d’extrait dans les résultats.
notranslate
Ne pas proposer de traduction.
noimageindex
Ne pas indexer les images de la page.
unavailable_after
Ne plus indexer après une date spécifique.
X-Robots-Tag: unavailable_after: 25 Dec 2024 15:00:00 GMT
Implémentation
Apache (.htaccess)
# Pour tous les PDF
<Files *.pdf>
Header set X-Robots-Tag "noindex, nofollow"
</Files>
# Pour un fichier spécifique
<Files "document-confidentiel.pdf">
Header set X-Robots-Tag "noindex"
</Files>
# Pour un dossier entier
<Directory "/var/www/private/">
Header set X-Robots-Tag "noindex"
</Directory>
Nginx
# Pour les PDF
location ~* \.pdf$ {
add_header X-Robots-Tag "noindex, nofollow";
}
# Pour un dossier
location /private/ {
add_header X-Robots-Tag "noindex";
}
PHP
header("X-Robots-Tag: noindex, nofollow", true);
Cas d’usage courants
Documents PDF privés
Empêcher l’indexation de PDF internes ou confidentiels.
Images à ne pas indexer
Bloquer l’indexation de certaines images dans Google Images.
Ressources techniques
Empêcher l’indexation de fichiers JS, CSS, ou API responses.
Archives temporaires
Utiliser unavailable_after pour du contenu temporaire.
Staging/Test
Bloquer l’indexation d’environnements de test.
Vérification
Google Search Console
Utilisez l’outil d’inspection d’URL pour vérifier les headers.
cURL
curl -I https://example.com/document.pdf
Browser DevTools
Onglet Network > Headers de la réponse.
Erreurs courantes
Conflit avec meta robots
Si les deux sont présents, la directive la plus restrictive s’applique.
Ordre des headers
Certains serveurs peuvent écraser les headers. Vérifiez la configuration.
Cache CDN
Les CDN peuvent cacher les headers. Invalidez le cache après modification.
Oubli sur les fichiers
Les PDF souvent oubliés lors de migrations ou audits.
Conclusion
Le X-Robots-Tag est essentiel pour contrôler l’indexation de fichiers non-HTML. Il complète la meta robots et offre une flexibilité totale sur tout type de contenu. Utilisez-le pour protéger vos documents privés, ressources de staging, ou tout fichier que vous ne souhaitez pas voir apparaître dans les résultats de recherche.