← Retour au lexique
⚙️ SEO Technique

TF-IDF (Term Frequency-Inverse Document Frequency)

Mesure statistique qui évalue l'importance d'un mot dans un document par rapport à une collection de documents.

Définition

Le TF-IDF est une mesure statistique utilisée pour évaluer l’importance d’un terme dans un document par rapport à une collection de documents. Cette métrique combine deux facteurs : la fréquence du terme (TF) et la fréquence inverse du document (IDF).

Calcul du TF-IDF

Le calcul se décompose en deux parties :

TF (Term Frequency) : Nombre de fois qu’un mot apparaît dans un document divisé par le nombre total de mots.

TF = (Nombre d'occurrences du terme / Nombre total de mots dans le document)

IDF (Inverse Document Frequency) : Logarithme du nombre total de documents divisé par le nombre de documents contenant le terme.

IDF = log(Nombre total de documents / Nombre de documents contenant le terme)

TF-IDF = TF × IDF

Exemple pratique

Pour un corpus de 1000 articles sur le SEO :

  • Le mot “SEO” apparaît 10 fois dans un article de 500 mots
  • ”SEO” est présent dans 800 des 1000 articles
TF = 10/500 = 0.02
IDF = log(1000/800) = 0.097
TF-IDF = 0.02 × 0.097 = 0.00194

Application en SEO

Les moteurs de recherche utilisent des variantes du TF-IDF pour :

  • Identifier les mots-clés pertinents d’une page
  • Éviter le keyword stuffing (un TF trop élevé peut être pénalisant)
  • Comprendre le contexte thématique d’un contenu

Optimisation pratique

Pour optimiser votre contenu :

  1. Utilisez naturellement les mots-clés importants
  2. Incluez des termes connexes et synonymes
  3. Évitez la sur-optimisation
  4. Analysez le TF-IDF des pages concurrentes bien positionnées