Archive pour la catégorie 'Le Contenu'

Structure et contenu

Dimanche 12 novembre 2006

Quelle structure adopter pour mon site ? est une question redondante chez les jeunes webmasters.

A. Le contenu considéré par les robots est composé pour l’essentiel de pages à lire et de liens à suivre.

B. Les robots et les internautes préfèrent les chemins courts. Surfer oui, déterrer à la pelle, non. Le bon sens commande que l’information (la page) recherchée ne soit pas à plus de deux liens (clics) de la page où on se trouve dans le site.

C. N’importe quelle information (page) que l’on tient à référencer doit être accessible de n’importe quel point du Web et donc doit disposer de son URL propre.

D. La structure physique est indépendante de la structure logique.

Ces quatre considérations élémentaires ne font pas encore partie de l’instinct des webmasters, ni même de leur éventuelle formation si l’on en juge par le nombre de sites mal fichus.
Peut-être une liste de recommandations vigoureuses sera-t-elle plus pratique ?

1. Pas de page de garde ou dite splashscreen comportant juste un bouton Entrez.

2. Il faut prévoir la navigation interne de manière à ce que l’internaute ne soit pas obligé d’utiliser le bouton Page précédente du navigateur.
Oubliez le navigateur !

3. Il faut prévoir une page Plan du site.
(Convention : * ceci est un lien *)

* Home *
* Chapitre 1 * [ Description du Chapitre 1 ]
    * Sous-chap. 1.1 * [ Desc. du sous-chap. 1.1 ]
    * Sous-chap. 1.2 * [ Desc. du sous-chap. 1.2 ]
    * Sous-chap. 1.3 * [ Desc. du sous-chap. 1.3 ]
    * ... *
    * Sous-chap. 1.n * [ Desc. du sous-chap. 1.n ]
* Chapitre 2 * [ Desc. du Chapitre 2 ]
    * Sous-chap. 2.1 * [ Desc. du sous-chap. 2.1 ]
            * s-s-chap. 2.1.1 * [ Desc. du s-s-chap. 2.1.1 ]
                * s-s-s-chap. 2.1.1.1 *
                  [ Desc. du s-s-s-chap. 2.1.1.1.]
                * s-s-s-chap. 2.1.1.2 *
                  [ Desc. du s-s-s-chap. 2.1.1.2.]
                    * s-s-s-s-chap. 2.1.1.2.1 *
                      [ Desc. du s-s-s-s-chap. 2.1.1.2.1.]
            * s-s-chap. 2.1.2 * [ Desc. du s-s-chap. 2.1.2 ]
    * Sous-chap. 2.2 * [ Desc. du sous-chap. 1.2 ]
    * ... *
    * Sous-chap. 2.n * [ Desc. du sous-chap. 2.n ]
* Chapitre 3 * [ Desc. du Chapitre 3 ]
    * Sous-chap. 3.1 * [ Desc. du sous-chap. 3.1 ]
    * Sous-chap. 3.2 * [ Desc. du sous-chap. 3.2 ]
    * ... *
    * Sous-chap. 3.n * [ Desc. du sous-chap. 3.n ]
* Chapitre n * [ Desc. du Chapitre n ]
    * ... *
* Contact *
* Copyright et CGU *

Cette page Plan du site peut reprendre l’arborescence complète du site ou se limiter aux deux premiers niveaux (chapitres et sous-chapitres) si la profondeur de la documentation s’arrête généralement là.
Dans l’exemple, il n’y a pas de s-s-s-chap autre part que dans le chapitre 2, alors que les autres niveaux sont constants pour tous les chapitres. Pas besoin de lister les s-s-s-chap dans le Plan du site dans ce cas.

En fait, la première chose à faire quand on prépare un site, c’est cette page de plan.
Cela permet d’affirmer la structure, de la peaufiner et de la nettoyer des éléments inutiles.

Par exemple, un niveau qui serait unique doit poser interrogation : est-il nécessaire d’en faire un niveau ou bien serait-il plus judicieux d’en faire une note de bas de page ?
Ou de le remonter d’un niveau en tant que Cas particulier (ce qu’il est) ?

Dans l’exemple, c’est le cas pour
* s-s-s-s-chap. 2.1.1.2.1 * [ Desc. du s-s-s-s-chap. 2.1.1.2.1.]

Une structure qui s’arrête au troisième niveau est généralement suffisante :

Home
- Literie
- Electro-ménager
  - Electro-ménager/toasters/
    - Electromenager/toasters/boulimex-55p
- Linge de table et de maison
- ...

Les choses sont rarement plus compliquées.
Au départ de la Home, on trouve le boulimes-55p au bout de deux clics.
Pareil au départ de n’importe quelle page si on passe par le Plan du site.
Si la nécessité s’impose de plonger plus en profondeur, on peut prévoir un quatrième niveau pourvu qu’il soit habituel, nombreux et justifié.
Les matières scientifiques peuvent exiger beaucoup plus de niveaux, bien entendu mais ceux qui les organisent peuvent se baser sur des structures pré-établies, je ne vais rien leur apprendre :)

4. Chaque page de niveau n doit comporter au minimum :
- un lien vers la Home;
- un lien vers le Plan du site;
- un lien vers la page-mère n-1.
On croirait pouvoir s’en tirer à bon compte en incluant en standard un menu complet sur chaque page mais c’est penser aux robots et non aux internautes.
En effet, l’internaute doit pouvoir remonter à la page-mère sans avoir à fouiller dans un menu.
Le lien spécifique s’impose en plus du menu dès que la page-mère n’est pas accessible d’un seul clic dans le menu.

5. Les descriptions de chaque (ss-)chapitre sur la page du Plan du site permettront à cette page d’être référencée.

6. Si la structure est légère, la Home peut servir de Plan de site. Légère signifie : pas plus de 50 liens au même niveau unique (ça existe).

7. Si les liens sont faits avec des images et non du texte, songez à compléter correctement l’attribut alt de chaque image, par exemple :
<a href=”http://example.com/…/toasters.php”><img src=”http://…/images-example.com/menu/toasters.jpg” … alt=”La page des toasters sur example.com“><a>
N’abusez pas des mots-clés, tout de même : un peu de décence s’impose, renseignez juste ce qui peut intéresser l’internaute et dans cet exemple, il serait plus propre (sinon plus efficace) de supprimer ce qui est en gras.

8. Le lien vers la Home peut utilement être placé en doublon sur le logo correctement alté du site, logo qui sera présent sur toutes les pages du site. L’internaute moyen commence à prendre l’habitude de cliquer sur ce logo quand il est perdu. Bon, ça double le nombre de liens vers la Home, si on a un doute on fait l’un ou l’autre : un lien sur le logo ou bien un lien standard dans le menu ou sur une image.
Article 15.

9. Au niveau du référencement, chaque page doit disposer de l’URL qui lui correspond.
Une page en (i)frame a peu de chances d’être référencée.
Une page à contenu variable (Ajax) a peu de chances d’être référencée.

10. La structure physique du site peut être froidement calquée sur sa structure logique, ça simplifie la maintenance de l’ensemble et les robots se fichent complètement de l’emplacement physique des ressources.

11. Pour les URL, on privilégiera les paths complètement et totalement absolus (http://…) au détriment des chemins relatifs de type /, ./, ../ ou autres. Ne me demandez pas pourquoi, il y a plein de discussions sur les forums à ce sujet mais c’est clair qu’un robot est fait pour tracer sur les chemins absolus et pas sur les relatifs : Continuez tout droit jusqu’à la ferme des Michus et tournez à droite, ça ne le fait plus trop à l’heure du GPS.

12. Des mots-clés comme noms de répertoires pour la structure physique ? C’est vrai que ces noms vont se retrouver dans l’URL et que cela peut peser et qu’on en a déjà abusé au point qu’on parle de pénalités.

Pas de mystère : plus le mot-clé est à gauche dans l’URL, plus il aura de poids.
Quel poids ? Là est le mystère :)
Vous ne perdez rien à essayer d’utiliser sobrement des mots-clés comme noms de dossiers dans la structure physique.
Sobrement = sans lourdeur manifeste, sans intention trop évidente d’influencer le moteur.
Songez à la longueur des URL : le plus court possible, c’est ce qui se fait de mieux.
Le gentil moteur doit stocker tout ça.

D’un autre côté, quoi de plus légitime que ce path ?
root/electromenager/toasters/

L’abus commencerait à
root/electromenager/toasters/toasters/
J’ai même vu l’équivalent d’un
root/electromenager/toasters/toasters/toasters/toasters/
dont il faudra que j’aille vérifier s’il existe toujours, pour ma collection d’abus manifestes non pénalisés sinon non détectés après x temps.

C’est fini ?
Pas de point 13 ?
Non, jamais de point 13.
LE moteur est ricain et les ricains n’ont pas de treizième étage :)

C’est LEUR faute si je n’aborde donc pas ici la question des sites multilingues (Vaut-il mieux des sites séparés, des sous-domaines d’un site unique ou un dossier par langue ?).

Affirmez vos thématiques

Mardi 7 novembre 2006

Un conseil souvent donné aux webmasters qui souhaitent établir un partenariat ou obtenir un BL, fût-ce dans un annuaire, est de privilégier la thématique.

Autrement dit : il s’agit de rester dans la thématique.

Par exemple, si on parle d’oiseaux, on évitera de faire référence à un site d’astronomie.

Ce conseil est compris d’instinct comme judicieux mais bien peu se demandent comment les moteurs s’arrangent pour déterminer les thématiques.

Toujours d’instinct, celui qui s’interroge pensera que le moteur compare les mots-clés des deux sites liés pour établir un degré de correspondance entre les thématiques.

Or, la thématique n’est pas vraiment dans les mots, elle en découle.

Après l’indexation de ses mots, une page peut être représentée comme un tableau multidimensionnel, chaque mot étant une dimension, l’ensemble formant un espace vectoriel où chaque mot a la même importance.

Un tri élimine les mots qui ne participent pas à une quelconque thématique, principalement les mots grammaticaux : les articles, les adjectifs non qualificatifs, les conjonctions (coordination et subordination) et les prépositions.

Restent les mots significatifs qu’il s’agit de pondérer (= leur attribuer un poids).
Cette pondération se base sur le nombre d’occurences1 du mot dans le texte et sur sa rareté (spécificité).

On pourrait comparer deux textes mot significatif par mot significatif mais chaque mot pris isolément peut avoir différentes significations et cela se complique encore du fait que les polysémies et les homonymies sont différentes pour chaque langue humaine (par exemple, les jeux de mots sont difficilement traduisibles).

C’est jouable mais malheureusement, et même si chaque thématique est supposée disposer d’un vocabulaire spécifique que l’on retrouvera dans tous les textes traitant de cette thématique, il existe quantité de thèmes qui partagent le même vocabulaire. Plus rares sont les textes traitant d’une même thématique avec des mots différents, mais ils existent et sont plus difficiles à mettre en correspondance.

Il est préférable de considérer la somme des vecteurs représentés par les mots significatifs pondérés, ce produit scalaire sera la thématique.

A ce stade, il devient possible de comparer deux textes de sites différents pour tenter de décider si, globalement, ils traitent de la même chose.

Conséquences :
- il faut veiller à utiliser les mots spécifiques à la thématique choisie et éviter d’emprunter le jargon d’un autre thème;
- il convient de réduire sinon de proscrire toutes les fantaisies (déplacements métaphoriques, jeux de mots, …) qui laisseraient le moteur perplexe ou plus exactement pourraient l’empêcher de cerner la thématique;
- pour les mots destinés à affirmer la thématique voulue, ne négligez pas (mais sans en abuser) les mots voisins pertinents (hyperonymes) ou plus spécifiques (hyponymes);
- il vaut mieux traiter une thématique précise : un thème, un site;
- une page doit être auto-référente au niveau de la thématique, on doit y trouver un vocabulaire précis, non ambigu;
- un texte doit être écrit dans une seule langue (sauf pour les citations clairement balisées comme telles);
- il faut veiller à l’orthographe; même si les moteurs prennent les erreurs en considération ce sont celles de l’internaute qui cherche, l’exploitation systématique de cette caractéristique par les auteurs sera un jour considérée comme abusive.

1 On voit encore trop souvent des pages bourrées de mots-clés répétés n’importe comment. Quant au nombre d’occurences d’un mot dans un texte, l’art du bien écrire recommande d’utiliser les synonymes plutôt que la répétition brutale et ça tombe bien : les moteurs sont devenus capables de traiter non seulement la synonymie des unités lexicales (les mots simples) mais aussi celle des expressions, sans compter la prise en compte des variations emphatiques porteuses de sens, ils feront par exemple une distinction entre dieu et Dieu.
Il n’existe plus de motif pour écrire bourrin à destination des moteurs.

Annonces et positionnement

Samedi 28 octobre 2006

Certains jours, il y a des djeunz qui se plaignent sur le ton
Ouinnnn le robot a juste indexé ma page de garde et pourtant j’ai de la pub contextuelle tout partout sur plein de pages

A ceux-là, on répond qu’il ne faut pas confondre la régie de pub et le moteur, n’est-ce pas ?
Que l’un n’entraîne pas l’autre.
Que mettre de la publicité contextuelle n’entraîne ni l’indexation ni l’amélioration du positionnement d’une page par le moteur du même nom.

Mais on le dit vite, pour ne pas pécher trop longtemps contre la logique.

Parce qu’enfin quoi ? Il serait bon que ce soit un peu logique, non ?
La régie a intérêt à ce que les annonces soient cliquées, non ?
Donc que les pages qui portent ces annonces soient vues, oui ?
Qu’elles soient indexées, au moins, ok ?
Et qu’elles soient mieux positionnées que des bêtes pages sans pub, d’accord ?

C’est l’intérêt de la régie, c’est l’intérêt de l’éditeur et c’est l’intérêt de l’annonceur.

A quoi ça sert d’enterrer des pubs sur des pages qui n’ont aucune chance d’être vues ?

En plus, booster l’indexation et le positionnement par les publicités contextuelles, ça va dans l’intérêt de l’internaute.
Pourquoi ?
Parce qu’une page enrichie de ce type de publicité sera forcément plus pertinente par rapport à la requête que la même page sans publicité.

Forcément !
L’annonce renforce le contenu, elle lui ajoute du sens, d’ailleurs c’est dans le nom d’un de ces types de pub : ad sense, ajouter du sens.

Quelque part, s’il est vrai que le positionnement se base d’abord sur la pertinence du contenu par rapport à la requête de l’internaute, la présence d’une annonce contextuelle devrait améliorer le positionnement.
Ce serait correct et légitime.
Paske une annonce, c’est du contenu, il n’y a qu’à voir en cache, c’est conservé avec le reste.

Alors : est-ce ce qui se passe ou non ?
Les pages équipées d’annonces bénéficient-elles d’un très logique bonus au positionnement ?

Si c’est non, c’est que le moteur se fiche de la pertinence contenu/requête pour positionner une page.

Si c’est oui, tout va bien :)

[ Accessoirement, si tout va bien, il n’est pas étonnant de trouver des différences de positionnement entre les SERPs de moteurs qui sont liés à des régies différentes. Qui boosterait la pub d’un concurrent ? Mais dans ce cas, que devient l’évaluation objective du contenu ? ]

Flash sur le noembed

Vendredi 6 octobre 2006

Mince, tous les moteurs n’explorent pas les fichiers Flash, mon site est en Flash, je fais comment ?

C’est vrai qu’un site tout en Flash risque de payer sa beauté en référencement.
Si en plus il est moche, c’est payer cher :)
C’est risqué, disons.

La solution la plus évidente consiste à doubler le site en Flash avec son pendant en html.
Bien sûr, il faut envisager la possibilité qu’un moteur soit capable d’explorer le Flash, il risque alors de trouver du contenu dupliqué :)

De toute façon, il vaut mieux prévoir le doublon en HTML comme alternative automatique, pas à la demande.
Un seul objet à deux possibilités plutôt que deux objets distincts.

Retournons un instant dans le passé.
Pour greffer un objet dans une page, par exemple un fichier .swf :

<embed src=”exemple.swf” />
<noembed>
Contenu alternatif
</noembed>

Il n’y a pas de balise de fermeture pour embed.

Dans la balise <noembed>, on place ce qu’on juge nécessaire pour remplacer l’objet prévu dans le <embed>.

Par exemple, une image :

<embed src=”exemple.swf” />
<noembed>
<img src=”exemple.gif” alt=”Image de remplacement du Flash” />
</noembed>

Ou bien simplement du texte :

<embed src=”exemple.swf” />
<noembed>
Avec le plugin adéquat, vous auriez pu voir mon Flash exemple.swf
</noembed>

Le contenu placé entre <noembed> et </noembed> sera vu par l’internaute seulement si le contenu du <embed> ne peut être exploité pour absence du plugin adéquat.
Pour l’accessibilité, c’est l’équivalent du alt=”…” des images.
Donc c’est bien.

Comme le contenu du alt, le contenu du noembed sera lu dans tous les cas par le robot.

Cette opportunité n’a pas échappé aux référenceurs et depuis une éternité on trouve des codes de ce genre :

<embed src=”exemple.swf” />
<noembed>
[ Douze tonnes de mots-clés et de liens à cacher ]
</noembed>

On dissimule ainsi un paquet de mots-clés et de liens pour influencer les moteurs.
Pour se positionner mieux.
Pour se positionner sur des requêtes qui ne concernent pas la thématique du site.
Pour tricher, quoi.

C’est une technique obsolète disent les bien-pensants.
Elle est obsolète seulement parce qu’elle est très connue et que les moteurs la répriment.
Enfin, la répriment, faut le dire vite pour ne pas mentir longtemps.
Il en reste de pleins tombereaux sur le Web, des mots-clés cachés dans des balises </noembed>.
Et non punis.
Mais certains l’ont été, punis, et notamment chez les référenceurs pros : c’est normal, autant frapper à la source du problème.
Et en plus, ça sert d’exemple pour les amateurs.
Les webmasters fautifs se hâtent de nettoyer leur code dans la crainte de se faire coincer.
C’est éducatif et économique, taper sur un référenceur pro.

Aujourd’hui, c’est une technique à risque de blacklistage sans appel tellement la ficelle est grosse :)

Une question amusante : peut-on utiliser la balise <noembed> sans balise <embed> ?
Héhé … oui :) Essayez, vous verrez ce que ça donne.

Tout ça parce que au contraire du <noframe> par exemple, qui doit se trouver avant la fermeture du frameset, <noembed> ne saurait se trouver obligatoirement dans le <embed> … qui n’a pas de balise de fermeture sur tous les navigateurs :)

De toute façon, ce n’est pas la technique qui est obsolète, c’est le tag <embed>.
Il faut lui préférer dans tous les cas la balise object, qui s’utilise comme suit : le contenu alternatif doit être placé juste avant la balise de fermeture de l’objet.

Retour au présent, donc :

<object type=”application/x-shockwave-flash” data=”exemple.swf” width=”100″ height=”100″>
<!– les paramètres, entre autres : –>
<param name=”movie” value=”fichier.swf” />
<param name=”quality” value=”high” />
<param name=”menu” value=”false” />
<!– fin des paramètres –>
<!– Début du contenu alternatif –>
Tout ce qu’on veut de pertinent pour remplacer le Flash :
texte, images, liens, div, …
Tout un site non-flash si on veut
<!– Fin du contenu alternatif –>

</object>

C’est propre, net, crossbrowser, valide W3C et non pénalisant.

Et pour remplacer juste mon menu en Flash ?

On place un menu fait de liens éventuellement dans un div et stylisés par CSS juste avant la balise.

C’est tout simple mais c’est se compliquer inutilement la vie : mieux vaut oublier les menus en Flash.
Des liens bien traités par CSS permettent bien assez de fantaisies graphiques et le rôle d’un menu n’est pas de focaliser l’attention ni de produire des sons ou des effets visuels mais d’être lisible et explicite.

Un sac de contenu, s’il vous plaît. C’est pour le robot.

Jeudi 5 octobre 2006

On insiste souvent sur le contenu :

Faites du contenu.

Un robot a besoin de contenu, sinon il passe outre et il va voir plus loin (sur n’importe quel autre site) pour trouver à manger.

Le contenu, pour l’internaute, c’est à peu près n’importe quoi.
Du texte, du son, des images, des vidéos, des programmes à télécharger, … peut-être un jour des odeurs et des saveurs mais on n’en est pas là.

Pour le robot, qui est un être très primitif, le seul contenu qui vaille la peine, c’est le texte.
Le robot est un univore.
Ou un monovore, à vous de voir.

Tout le reste, pour lui, c’est l’emballage.
Et si un chien est capable de s’acharner sur un sachet en papier qui a contenu un sandwiche il y a quinze ans et en conserve une seule molécule d’odeur, le robot n’a aucun odorat.

En conséquence, il faut lui donner du texte.

C’est important, parce que contrairement au chien, si le robot ne trouve rien à manger, ce n’est pas lui qui meurt mais l’emballage.
Votre site, quoi.
Un site sans texte est en danger de mort par inanition du robot.

Le robot ne voit pas combien votre site est agréable à regarder, il se fiche complètement de la finesse des bordures et de la justesse des tons, c’est le genre qui ne pense qu’à bouffer.
TexteTexteTexteTexte … J’ai faim de TEXTE.

Votre contenu est fait d’images ?
C’est une galerie de photos ou de peintures ?
Au risque de vous décevoir, je dois vous dire que pour un robot, votre site est vide !

Non seulement vous devez attribuer à CHAQUE image un Alt=”description_de_cette_image” (une description pour CHAQUE image, pour que le robot fasse Miam ! comme moi devant une boîte de chocolats fourrés) mais vous feriez bien de placer une description plus longue, bien visible sur la page de l’image.

Votre site est en Flash ?
Un jour, les robots seront tous capables d’explorer les fichiers en Flash pour y trouver le texte nourricier.
Mais jusque là, songez sérieusement à doubler votre Flash par son équivalent en texte.

En attendant, il est possible de donner un contenu alternatif si le Flash ne peut être exploité par le robot … mais c’est surtout utile pour l’internaute dépourvu du plugin adéquat.

L’essentiel, c’est de comprendre que

Faites du contenu.

signifie en réalité

Faites du TEXTE.