Un Web invisible à opacité variable
Deep web, Web profond, Web invisible … autant d’étiquettes pour désigner les ressources non indexées par les moteurs courants.
La partie émergée de l’iceberg du Web - ce qui est accessible par une recherche sur un moteur standard - représente une fraction minuscule des ressources qui existent : 1/100è pour certains auteurs, 1/500è pour d’autres.
Ils sont loin du compte.
Google est parti depuis longtemps explorer les profondeurs du Web, on l’a vu, par exemple, indexer les .pdf et les .swf, un peu à la brutale et sans pouvoir donner trop de détails quant à leur contenu.
Il ne s’en tire pas trop mal du côté des descriptions pour certains types de documents, par exemple pour les fichiers.txt ou pour les fichiers.doc.
Les pages standards, pas de souci : il sait faire.
Pour d’autres types pourtant très communs, c’est carrément la cata, faute de standards pour la description.
C’est ainsi pour les flash.swf.
Pas terrible pour le référencement.
Pas de descripteur standard, pas de chocolat
Pareil pour les images de certains formats : image.svg ou image.raw.
C’est indexé mais ça ne suffit pas pour s’y retrouver.
Une partie du web invisible est donc déjà là, comme entassé n’importe comment dans des hangars ouverts à tous les vents des robots.
Vous pouvez jouer avec la commande filetype: suivie d’une extension prise dans la liste liste des extensions des fichiers.
Vous serez surpris de constater la quantité de documents qui sont indexés sans utilité aucune.
GG indexe, c’est clair.
Tout et n’importe quoi à partir du moment où un lien pointe sur le document.
Des fichiers .x3d ou .wrz, par exemple.
Des choses rares qui intéressent un minimum de monde mais GG ne s’arrête pas à ces considérations : ses robots tracent la route comme des gentils pacmen et ils gobent tout ce qu’ils rencontrent.
Les moteurs, on leur ferait indexer un emballage de fast food si on pouvait lui brancher un BL.
Depuis peu, GG explore les récifs de corail des formulaires, il pourrait en rapporter les milliards de documents qui se construisent seulement sur une requête.
Ce ne sera pas trop compliqué puisqu’il est capable depuis longtemps d’indexer les documents issus des systèmes dynamiques par clic alors que là il s’agit des pages créées dynamiquement par une requête sur formulaire, requête souvent multicritères.
C’est un peu plus difficile, d’accord, mais quand tu as la volonté et les moyens, rien n’est longtemps un obstacle.
On peut donc s’attendre à voir grandir le Web, il va même gonfler comme un aérostat sur le départ.
Avec des titres et des descriptions explicites, on y compte bien.
Tout ne sera pas dit, loin de là.
Il restera l’immense mer des documents interdits par log et par mot de passe (ou autrement).
Les documents placés à l’abri des moteurs par robots.txt, .htaccess ou autrement.
Les BDD privées et/ou payantes.
Les intranets.
Et encore, 100 à 500 fois ce qui est accessible, c’est seulement du Web transparent, tout cela n’est rien à côté du vrai Web invisible, celui qui n’est pas seulement à l’abri des regards voraces des moteurs courants mais aussi caché aux navigateurs standards.
Un jour, je vous entretiendrai des tld privés, et peut-être que je vous inviterai pour une balade en browser Java.
Des territoires où la main du référenceur n’a jamais mis le pied (joli !) et vastes comme il est difficile de l’imaginer.
J’adore les randonnées sauvages en gros cube
Il reste du boulot pour les petits curieux qui mettent leur nez partout, ce qu’en Hollande on appelle, de façon très imagée, curieuzeneuzemosterdpot.
Les sales gosses qui mettent le nez dans le pot à moutarde
19 avril 2008 à 9:46
Les Pays bas, c’est la qu’est né le plus grand de tout les curieuzeneuzemosterpot, Tiel Ulenspiegel.
22 avril 2008 à 11:46
Le browser Java m’intrigua… Paresseux, j’installais le premier que je trouvais: un loup espagnol, apparemment. Malgré une gestion des CSS un brin chaotique, il me donna des résultats différents d’un browser classique sur une même requête et rien que pour ça, je suis partant pour une ballade !