Définition
Le cosinus de Salton (ou similarité cosinus) est une mesure mathématique permettant de calculer la similarité entre deux vecteurs, utilisée en SEO pour comparer des textes. Cette métrique évalue à quel point deux documents sont sémantiquement proches.
Principe mathématique
Représentation vectorielle
Chaque texte est transformé en vecteur où chaque dimension représente un mot et sa fréquence.
Formule
cos(θ) = (A · B) / (||A|| × ||B||)
- A · B : Produit scalaire des vecteurs
- ||A||, ||B|| : Normes des vecteurs
Résultat
- 1 : Documents identiques
- 0 : Documents sans rapport
- Entre 0 et 1 : Degré de similarité
Applications en SEO
Détection de contenu dupliqué
Identifier les pages trop similaires sur votre site.
Analyse concurrentielle
Comparer votre contenu avec celui des concurrents.
Optimisation sémantique
Vérifier la couverture thématique d’un texte.
Clustering de contenus
Regrouper des pages par similarité.
Utilisation pratique
Seuils courants
| Score | Interprétation |
|---|---|
| >0.95 | Quasi-dupliqué |
| 0.7-0.95 | Très similaire |
| 0.4-0.7 | Similarité modérée |
| <0.4 | Peu similaire |
Contexte
Les seuils varient selon le type de contenu et l’objectif.
Outils utilisant le cosinus
Outils SEO
Certains outils de détection de plagiat utilisent cette méthode.
Scripts personnalisés
Python avec scikit-learn ou autres bibliothèques NLP.
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
texts = ["texte 1", "texte 2"]
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(texts)
similarity = cosine_similarity(tfidf[0:1], tfidf[1:2])
TF-IDF et cosinus
Combinaison courante
TF-IDF pondère les mots selon leur importance, puis le cosinus mesure la similarité.
TF-IDF
- TF (Term Frequency) : Fréquence du mot dans le document
- IDF (Inverse Document Frequency) : Rareté du mot dans le corpus
Limites
Ordre des mots
Le cosinus ignore l’ordre des mots.
Synonymes
Ne reconnaît pas les synonymes comme similaires.
Contexte
Ignore le contexte sémantique profond.
Évolutions
Les modèles de langage modernes (BERT, etc.) sont plus sophistiqués.
Alternatives modernes
Word embeddings
Word2Vec, GloVe pour la similarité sémantique.
BERT et transformers
Compréhension contextuelle du sens.
Outils SaaS
Clearscope, Surfer SEO utilisent des méthodes avancées.
Utilité actuelle
Toujours pertinent pour
- Détection basique de plagiat
- Comparaison rapide de textes
- Clustering de documents
Complété par
Les technologies NLP modernes pour l’analyse sémantique profonde.
Conclusion
Le cosinus de Salton est une mesure mathématique classique pour comparer la similarité de textes. En SEO, il est utile pour détecter le contenu dupliqué et analyser la similarité entre documents. Bien que des méthodes plus sophistiquées existent aujourd’hui, le cosinus reste une base efficace pour des analyses de similarité rapides.