X-Robots-Tag

Définition

Le X-Robots-Tag est un en-tête HTTP (header) qui permet de donner des directives d’indexation aux robots des moteurs de recherche. Il fonctionne comme la balise meta robots, mais s’applique à tous les types de fichiers, pas seulement aux pages HTML.

C’est la solution pour contrôler l’indexation des PDF, images, vidéos et autres ressources.

Différence avec meta robots

Meta robots

<meta name="robots" content="noindex, nofollow">

Uniquement dans le <head> HTML
Ne fonctionne que pour les pages HTML

X-Robots-Tag: noindex, nofollow

En-tête HTTP
Fonctionne pour tous les fichiers (PDF, images, JS, CSS, etc.)

Syntaxe

Format de base

X-Robots-Tag: directive

Avec plusieurs directives

X-Robots-Tag: noindex, nofollow

Cibler un robot spécifique

X-Robots-Tag: googlebot: noindex
X-Robots-Tag: bingbot: noindex

Directives disponibles

noindex

Ne pas indexer le fichier dans les résultats de recherche.

nofollow

Ne pas suivre les liens contenus dans le fichier.

noarchive

Ne pas afficher de version en cache.

nosnippet

Ne pas afficher d’extrait dans les résultats.

notranslate

Ne pas proposer de traduction.

noimageindex

Ne pas indexer les images de la page.

unavailable_after

Ne plus indexer après une date spécifique.

X-Robots-Tag: unavailable_after: 25 Dec 2024 15:00:00 GMT

Implémentation

Apache (.htaccess)

# Pour tous les PDF
<Files *.pdf>
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

# Pour un fichier spécifique
<Files "document-confidentiel.pdf">
  Header set X-Robots-Tag "noindex"
</Files>

# Pour un dossier entier
<Directory "/var/www/private/">
  Header set X-Robots-Tag "noindex"
</Directory>

Nginx

# Pour les PDF
location ~* \.pdf$ {
  add_header X-Robots-Tag "noindex, nofollow";
}

# Pour un dossier
location /private/ {
  add_header X-Robots-Tag "noindex";
}

PHP

header("X-Robots-Tag: noindex, nofollow", true);

Cas d’usage courants

Documents PDF privés

Empêcher l’indexation de PDF internes ou confidentiels.

Images à ne pas indexer

Bloquer l’indexation de certaines images dans Google Images.

Ressources techniques

Empêcher l’indexation de fichiers JS, CSS, ou API responses.

Archives temporaires

Utiliser unavailable_after pour du contenu temporaire.

Staging/Test

Bloquer l’indexation d’environnements de test.

Vérification

Google Search Console

Utilisez l’outil d’inspection d’URL pour vérifier les headers.

cURL

curl -I https://example.com/document.pdf

Browser DevTools

Onglet Network > Headers de la réponse.

Erreurs courantes

Conflit avec meta robots

Si les deux sont présents, la directive la plus restrictive s’applique.

Ordre des headers

Certains serveurs peuvent écraser les headers. Vérifiez la configuration.

Cache CDN

Les CDN peuvent cacher les headers. Invalidez le cache après modification.

Oubli sur les fichiers

Les PDF souvent oubliés lors de migrations ou audits.

Conclusion

Le X-Robots-Tag est essentiel pour contrôler l’indexation de fichiers non-HTML. Il complète la meta robots et offre une flexibilité totale sur tout type de contenu. Utilisez-le pour protéger vos documents privés, ressources de staging, ou tout fichier que vous ne souhaitez pas voir apparaître dans les résultats de recherche.

Découvrez Cuik Pro

Cuik Pro, c'est :

X-Robots-Tag

Définition

Différence avec meta robots

Meta robots

X-Robots-Tag

Syntaxe

Format de base

Avec plusieurs directives

Cibler un robot spécifique

Directives disponibles

noindex

nofollow

noarchive

nosnippet

notranslate

noimageindex

unavailable_after

Implémentation

Apache (.htaccess)

Nginx

PHP

Cas d’usage courants

Documents PDF privés

Images à ne pas indexer

Ressources techniques

Archives temporaires

Staging/Test

Vérification

Google Search Console

cURL

Browser DevTools

Erreurs courantes

Conflit avec meta robots

Ordre des headers

Cache CDN

Oubli sur les fichiers

Conclusion