Archive pour décembre 2006

Le PageRank des unités documentaires.

Mercredi 27 décembre 2006

Quand on fréquente les forums généralistes sur le référencement, on lit souvent :

Mon site a un PR n.

Quand on lit ça, on se dit qu’on a affaire à un nouveau venu.
C’est l’idée reçue numéro un : le PR concerne le site.

Parfois, une bonne âme remet les pendules à l’heure :

Le PR ne concerne pas le site mais la page.

Et ça, c’est l’idée reçue numéro deux :)
Lire la suite de cet article »

Fin de disette pour les flasheurs ?

Samedi 23 décembre 2006

Les afficionados du tout-en-Flash sont souvent dépités devant les maigres performances du référencement de leur site.

Nous pouvons tenter de déblayer le terrain pour les aider à optimiser ce référencement.

Nous avons vu dans un précédent billet que les moteurs de recherche sont parfaitement capables d’explorer les fichiers .swf et d’en extraire la substantifique moelle : le texte et les liens.
La cause est entendue : ils peuvent le faire.
Mais aiment-ils cela ?
Lire la suite de cet article »

Construire et référencer les sites en full-Flash.

Vendredi 15 décembre 2006

S’il est un type de fichier réputé difficile voire impossible à référencer, c’est bien le .swf.

Et c’est vrai que le format .swf n’est pas proposé dans la Recherche avancée de Google alors qu’on y trouve la possibilité de limiter la requête au .pdf (Adobe Acrobat), .ps (Adobe Postscript), .doc (Microsoft Word), .xls (Microsoft Excel), .ppt (Microsoft PowerPoint) et .rtf (rich text format, un standard).
Lire la suite de cet article »

La modification des titres.

Jeudi 14 décembre 2006

Une des premières choses à faire pour améliorer l’impact d’un site est de peaufiner le <title> des pages.

Juste après vient le peaufinage du texte des liens internes mais restons-en au <title> pour ce billet.

Rappel : pour le contenu du <title>, un large consensus admet l’efficacité des pseudo-normes suivantes.

- Le titre peut comporter entre 50 et 80 caractères, espaces compris (60, c’est bien).
- Le premier caractère ne peut être un espace et mieux vaut éviter les symboles et les caractères non alphanumériques.
- Pas de majuscules inopportunes.
- La forme phrase avec mot-clé + nom du site est préférable à la forme nom du site + phrase avec mot-clé.
- A l’intérieur du titre, privilégier le tiret encadré d’espaces comme séparateur (par exemple Phrase avec mot-clé - NDD), ceci pour le confort de l’internaute; si le NDD fait partie du titre et comporte un tiret, pas de soucis : ce tiret spécifique n’est pas encadré par des espaces.
- Le mot-clé le plus à gauche aura le plus grand impact.
- Il faut un titre par page.
- Le titre doit refléter le contenu réel de la page.
- Organiquement parlant, on placera la balise <title> en tête de page, immédiatement après l’ouverture du <head> et après le META qui déclare le charset (pour que le contenu du <title> puisse comporter des caractères accentués.
Le titre fait en effet partie du contenu exploité par les moteurs, sa position dans le <head> ne doit pas faire croire qu’il est au rang d’un META : c’est du contenu (insistons lourdement), c’est même le premier contenu rencontré par le robot d’où son importance capitale.
- N’utilisez pas le <meta name=”title” content=”…” /> en plus du <title>.

Tout cela relève des truismes mais il est bon de le rappeler.

Ceci dit, la modification du title peut entraîner une pénalité en phase de lancement du site ou s’il est dans le bac à sable.

Un certain nombre de sites restent en sandbox parce que le webmaster opère modification sur modification dans l’espoir d’en sortir.
Le bac à sable devient alors sables mouvants.

On modifie le title sur des pages qui reçoivent déjà du trafic-moteur, pas sur des pages non encore affirmées.

C’est extrêmement ennuyeux pour le webmaster d’un site immature qui constate que toutes ses pages portent le même titre et qui voudrait modifier cette erreur.

Si ce titre commun est une phrase avec un mot-clé, mieux vaut la laisser et opérer les modifications au fur et à mesure qu’une page reçoit du trafic par les moteurs, page après page.

Le même type de problème peut être rencontré à l’occasion de la mise en oeuvre en temps inopportun de l’URL-rewriting.

Moralité : il faut penser un site avant de le lancer et sinon, la correction pour être efficace va prendre du temps et de l’énergie donc coûter cher.

Pour corriger rapidement le tir, la tentation est grande, et le risque aussi, de cloaker les pages immatures vers les pages aux titres optimisés.

A chacun de prendre ses responsabilités.

Stroboscopie des états lacunaires : mots-clés, thématiques et contextes.

Mardi 12 décembre 2006

Texte du contenu, texte alternatif de l’image, texte des liens, texte de la description de la page, texte des URL et jusqu’au texte du NDD, le texte est au coeur du référencement.

Trouver les mots pour le dire est le souci constant du référenceur.

Les littéraires pourraient s’en réjouir qui créent de manière naturelle des contenus riches et cohérents s’il s’avérait que les moteurs soient capables ou aient la volonté de mettre en oeuvre les algorithmes sémantiques depuis longtemps mis au point.

Malheureusement, il n’en est rien et les algos, qui passent pourtant pour complexes et qui le sont peut-être mais à mauvais escient, apparaissent comme aussi frustes que les résultats qu’ils livrent, résultats qui satisfont certes la plupart des consommateurs mais qui brident l’espérance des plus exigeants.

Pour les chercheurs comme pour les observateurs initiés, il est extrêmement frustrant de constater que même les techniques les plus évidentes d’efficacité semblent être évincées au profit de celles qui privilégient les résultats commerciaux.

Régulièrement, la foi en l’intelligence des moteurs fait espérer que tel épiphénomène pourrait donner à croire que telle technique a enfin été mise en oeuvre.
Par exemple, quand on constate qu’une page-fiche du percolateur de tel modèle de telle marque se porte mieux dans les SERPs quand elle est liée à une page traitant des autres percolateurs de cette marque, à une page générique traitant du percolateur et à la page du constructeur, on se prend à rêver : le moteur analyserait-il la sémantique latente ?

C’est oublier
- que tout le monde organise (devrait organiser) ainsi ses catalogues (et d’une manière générale ses produits) parce qu’il n’existe qu’une seule manière efficace de structurer : celle qui convient aux habitudes de l’internaute;
- que l’unité documentaire est la page.

On observe que :
- la structure des sites est de plus en plus standardisée;
- l’internaute est éduqué à ce standard, tous les internautes ont le même état initial.

La puissance de la LSA (qui tend à lever les incertitudes quant à la signification) est donc inutile dès lors que :
- la page traite d’un seul sujet;
- les mots-clés sont choisis avec soin dans une thématique précise;
- les liens entrants et sortants confortent les mots-clés.

A ces conditions, le moteur n’a nul besoin d’être intelligent pour classer la page.

Et il ne l’est pas, ainsi qu’on peut le constater quand il se laisse berner par la répétition mesurée avec soin d’un même mot ou par un nuage de mots.

Un moteur qui ferait usage de la LSA serait capable d’associer des ensembles de mots différents, par exemple une chignole pourrie sur une page et une voiture rouillée sur une autre page.
Par l’analyse du contexte, il saurait que cette chignole est une automobile ou bien une perceuse manuelle.
Il saurait aussi que réferen cement (avec un espace erroné) n’a rien à voir avec cement (ciment en anglais) et donc avec une quelconque entreprise du bâtiment ou portant ce nom (vu dans les annonces contextuelles).

Les moteurs disposent de lexiques et de thésaurus mais pour une ontologie satisfaisante il faudra attendre encore.

Quant au choix des mots …
Il y a longtemps qu’il n’est plus libre mais qu’il dépend directement des mots introduits en requête par l’internaute.
Le citoyen moyen utilise moins de 3000 mots au quotidien, un dictionnaire courant en comporte environ 50.000, la langue en compte presque dix fois plus (toutes spécialisations confondues).

Ces 3000 mots basiques sont incontournables et il s’agit de les utiliser même si à leur côtés sur la page on en écrit d’autres plus précis.

Les algos sont bien plus simples qu’on le croit, ils obligent à formater le contenu à la mesure de leurs faibles compétences mais il n’en reste pas moins vrai qu’il reste possible de faire un travail qui soit à la fois performant dans les SERPs et qualitativement honorable au niveau de l’écriture.

Certains outils aident grandement à choisir les mots utiles.

- Pour trouver des synonymes et des liens analogiques : l’atlas sémantique du CNRS.
- Visualisation de l’espace sémantique des synonymes : le dictionnaire du laboratoire CRISCO.


La stroboscopie sert notamment à figer un instant du mouvement périodique, oscillatoire ou répétitif d’un objet.
Dans le spectacle, la stroboscopie sert à gérer l’emission de trains d’éclairs (de génie ?).