Définition
Le TF-IDF est une mesure statistique utilisée pour évaluer l’importance d’un terme dans un document par rapport à une collection de documents. Cette métrique combine deux facteurs : la fréquence du terme (TF) et la fréquence inverse du document (IDF).
Calcul du TF-IDF
Le calcul se décompose en deux parties :
TF (Term Frequency) : Nombre de fois qu’un mot apparaît dans un document divisé par le nombre total de mots.
TF = (Nombre d'occurrences du terme / Nombre total de mots dans le document)
IDF (Inverse Document Frequency) : Logarithme du nombre total de documents divisé par le nombre de documents contenant le terme.
IDF = log(Nombre total de documents / Nombre de documents contenant le terme)
TF-IDF = TF × IDF
Exemple pratique
Pour un corpus de 1000 articles sur le SEO :
- Le mot “SEO” apparaît 10 fois dans un article de 500 mots
- ”SEO” est présent dans 800 des 1000 articles
TF = 10/500 = 0.02
IDF = log(1000/800) = 0.097
TF-IDF = 0.02 × 0.097 = 0.00194
Application en SEO
Les moteurs de recherche utilisent des variantes du TF-IDF pour :
- Identifier les mots-clés pertinents d’une page
- Éviter le keyword stuffing (un TF trop élevé peut être pénalisant)
- Comprendre le contexte thématique d’un contenu
Optimisation pratique
Pour optimiser votre contenu :
- Utilisez naturellement les mots-clés importants
- Incluez des termes connexes et synonymes
- Évitez la sur-optimisation
- Analysez le TF-IDF des pages concurrentes bien positionnées