Affirmez vos thématiques

Un conseil souvent donné aux webmasters qui souhaitent établir un partenariat ou obtenir un BL, fût-ce dans un annuaire, est de privilégier la thématique.

Autrement dit : il s’agit de rester dans la thématique.

Par exemple, si on parle d’oiseaux, on évitera de faire référence à un site d’astronomie.

Ce conseil est compris d’instinct comme judicieux mais bien peu se demandent comment les moteurs s’arrangent pour déterminer les thématiques.

Toujours d’instinct, celui qui s’interroge pensera que le moteur compare les mots-clés des deux sites liés pour établir un degré de correspondance entre les thématiques.

Or, la thématique n’est pas vraiment dans les mots, elle en découle.

Après l’indexation de ses mots, une page peut être représentée comme un tableau multidimensionnel, chaque mot étant une dimension, l’ensemble formant un espace vectoriel où chaque mot a la même importance.

Un tri élimine les mots qui ne participent pas à une quelconque thématique, principalement les mots grammaticaux : les articles, les adjectifs non qualificatifs, les conjonctions (coordination et subordination) et les prépositions.

Restent les mots significatifs qu’il s’agit de pondérer (= leur attribuer un poids).
Cette pondération se base sur le nombre d’occurences1 du mot dans le texte et sur sa rareté (spécificité).

On pourrait comparer deux textes mot significatif par mot significatif mais chaque mot pris isolément peut avoir différentes significations et cela se complique encore du fait que les polysémies et les homonymies sont différentes pour chaque langue humaine (par exemple, les jeux de mots sont difficilement traduisibles).

C’est jouable mais malheureusement, et même si chaque thématique est supposée disposer d’un vocabulaire spécifique que l’on retrouvera dans tous les textes traitant de cette thématique, il existe quantité de thèmes qui partagent le même vocabulaire. Plus rares sont les textes traitant d’une même thématique avec des mots différents, mais ils existent et sont plus difficiles à mettre en correspondance.

Il est préférable de considérer la somme des vecteurs représentés par les mots significatifs pondérés, ce produit scalaire sera la thématique.

A ce stade, il devient possible de comparer deux textes de sites différents pour tenter de décider si, globalement, ils traitent de la même chose.

Conséquences :
- il faut veiller à utiliser les mots spécifiques à la thématique choisie et éviter d’emprunter le jargon d’un autre thème;
- il convient de réduire sinon de proscrire toutes les fantaisies (déplacements métaphoriques, jeux de mots, …) qui laisseraient le moteur perplexe ou plus exactement pourraient l’empêcher de cerner la thématique;
- pour les mots destinés à affirmer la thématique voulue, ne négligez pas (mais sans en abuser) les mots voisins pertinents (hyperonymes) ou plus spécifiques (hyponymes);
- il vaut mieux traiter une thématique précise : un thème, un site;
- une page doit être auto-référente au niveau de la thématique, on doit y trouver un vocabulaire précis, non ambigu;
- un texte doit être écrit dans une seule langue (sauf pour les citations clairement balisées comme telles);
- il faut veiller à l’orthographe; même si les moteurs prennent les erreurs en considération ce sont celles de l’internaute qui cherche, l’exploitation systématique de cette caractéristique par les auteurs sera un jour considérée comme abusive.

1 On voit encore trop souvent des pages bourrées de mots-clés répétés n’importe comment. Quant au nombre d’occurences d’un mot dans un texte, l’art du bien écrire recommande d’utiliser les synonymes plutôt que la répétition brutale et ça tombe bien : les moteurs sont devenus capables de traiter non seulement la synonymie des unités lexicales (les mots simples) mais aussi celle des expressions, sans compter la prise en compte des variations emphatiques porteuses de sens, ils feront par exemple une distinction entre dieu et Dieu.
Il n’existe plus de motif pour écrire bourrin à destination des moteurs.

11 réponses à “Affirmez vos thématiques”

  1. Taranis dit :

    Et si ne pas être vu était le meilleur agrument pour que certains cherchent à voir ?…

  2. SZarah dit :

    Et si ne pas être vu était le meilleur agrument pour que certains cherchent à voir ?…

    Tu cherches à te positionner sur “agRument” ?
    C’est de la politique d’agrume en bocal :)

    On peut se cacher : robots.txt, .htaccess, liens en javascript pour charger des pages en (i)frames … ou accès limité inaccessible aux bots. Et les robots ne chercheront pas :)

  3. Taranis dit :

    Oui argument.
    Mais il n’y a pas que les robots qui cherchent !

  4. SZarah dit :

    Mais il n’y a pas que les robots qui cherchent !

    Je crois que Ask a caché une page, il y a des indices et une belle prime à la clé pour ce jeu.

  5. disette dit :

    Quelle bonne blague… :)

    Ask.com a caché 10 000 € sur Internet. Serez-vous le premier à les trouver ?

  6. Taranis dit :

    Nafout j’ai plein d’RAN ! :)

  7. SZarah dit :

    Thématique : réalisation en macramé.

    D’un aimable lecteur :

    Pour faire une suite immédiate, voyez la différence entre la recherche

    réalisation en macramé

    et la recherche

    réalisation macramé

    réalisation en macramé pourrait bien être une thématique.

    Tandis que réalisation+macramé serait une recherche hors thème.

    Ou bien il s’agit d’une simple recherche full text dans les deux cas et la chaîne exacte sort alors logiquement mieux :)

    Ne jamais conclure sur un exemple isolé.

  8. disette dit :

    Ne jamais conclure sur un exemple isolé.

    On peut aussi penser que le champ sémantique est trés étroit et spécialisé…

  9. SZarah dit :

    Et ce n’est pas varech de Transylvanie qui va élargir le champ.
    Mais tous les chemins menant à Rome, de lézard en varan, de varan en varech et de varech en sémantech, j’ai bon espoir :)

  10. disette dit :

    Un jeu aussi subtil qu’improbable pourrait consister à partir d’une page A donnée (sur la thématique du brise-bise en macramé) à imaginer le chemin le plus efficace pour positionner une page An sur la requête ‘Lezard du Kosovo’;
    (le chemin se mesurant au nombre de pages intermédiaires menant à la page An)
    L’idée serait celle d’un arbitrage entre la dilution du PR, fonction du nombre de pages intermédiaires…. et la cohérence thématique des pages intermédiaires liées.

  11. SZarah dit :

    C’est un exercice que j’ai déjà envisagé mais c’est trop ambitieux.
    Comme bien d’autres qui mettent en jeu le PR, il se heurte à la difficulté de maîtriser les BL sauf à les ancrer sur des sites amis et des sites de ce type, je n’en ai pas assez.

Laisser un commentaire

Vous devez être connecté pour laisser un commentaire.