← Retour au lexique
⚙️ SEO Technique

Cosinus de Salton

Le cosinus de Salton mesure la similarité entre deux textes. Utilisé en SEO pour analyser la pertinence sémantique et détecter le contenu dupliqué.

Définition

Le cosinus de Salton (ou similarité cosinus) est une mesure mathématique permettant de calculer la similarité entre deux vecteurs, utilisée en SEO pour comparer des textes. Cette métrique évalue à quel point deux documents sont sémantiquement proches.

Principe mathématique

Représentation vectorielle

Chaque texte est transformé en vecteur où chaque dimension représente un mot et sa fréquence.

Formule

cos(θ) = (A · B) / (||A|| × ||B||)
  • A · B : Produit scalaire des vecteurs
  • ||A||, ||B|| : Normes des vecteurs

Résultat

  • 1 : Documents identiques
  • 0 : Documents sans rapport
  • Entre 0 et 1 : Degré de similarité

Applications en SEO

Détection de contenu dupliqué

Identifier les pages trop similaires sur votre site.

Analyse concurrentielle

Comparer votre contenu avec celui des concurrents.

Optimisation sémantique

Vérifier la couverture thématique d’un texte.

Clustering de contenus

Regrouper des pages par similarité.

Utilisation pratique

Seuils courants

ScoreInterprétation
>0.95Quasi-dupliqué
0.7-0.95Très similaire
0.4-0.7Similarité modérée
<0.4Peu similaire

Contexte

Les seuils varient selon le type de contenu et l’objectif.

Outils utilisant le cosinus

Outils SEO

Certains outils de détection de plagiat utilisent cette méthode.

Scripts personnalisés

Python avec scikit-learn ou autres bibliothèques NLP.

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

texts = ["texte 1", "texte 2"]
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(texts)
similarity = cosine_similarity(tfidf[0:1], tfidf[1:2])

TF-IDF et cosinus

Combinaison courante

TF-IDF pondère les mots selon leur importance, puis le cosinus mesure la similarité.

TF-IDF

  • TF (Term Frequency) : Fréquence du mot dans le document
  • IDF (Inverse Document Frequency) : Rareté du mot dans le corpus

Limites

Ordre des mots

Le cosinus ignore l’ordre des mots.

Synonymes

Ne reconnaît pas les synonymes comme similaires.

Contexte

Ignore le contexte sémantique profond.

Évolutions

Les modèles de langage modernes (BERT, etc.) sont plus sophistiqués.

Alternatives modernes

Word embeddings

Word2Vec, GloVe pour la similarité sémantique.

BERT et transformers

Compréhension contextuelle du sens.

Outils SaaS

Clearscope, Surfer SEO utilisent des méthodes avancées.

Utilité actuelle

Toujours pertinent pour

  • Détection basique de plagiat
  • Comparaison rapide de textes
  • Clustering de documents

Complété par

Les technologies NLP modernes pour l’analyse sémantique profonde.

Conclusion

Le cosinus de Salton est une mesure mathématique classique pour comparer la similarité de textes. En SEO, il est utile pour détecter le contenu dupliqué et analyser la similarité entre documents. Bien que des méthodes plus sophistiquées existent aujourd’hui, le cosinus reste une base efficace pour des analyses de similarité rapides.