Le web ne cesse de croître, au point que beaucoup de moteurs de recherche, Google en tête, ne communiquent plus sur le nombre de pages indexées… Comprenons bien comment fonctionne un moteur de recherche: pour faire simple des robots parcourent le web en suivant les liens hypertextes qu’ils rencontrent et renseignent un index à chaque nouvelle page web rencontrée. La recherche s’opère à l’interieur de cet index grâce à un algorithme propre à chaque moteur qui utilise différents parametres : titre de la page, mots clés, url, etc… Cette recherche est du type « plain text », ie que le moteur de recherche n’analyse généralement pas le sens de votre requête mais juxtapose les termes recherchés et regarde s’il les trouve associés dans son index.

Biensûr, des moteurs comme Google, Yahoo ou Live commencent à intégrer les synonymes et ont vocation à interpreter le sens des phrases ce que fait déjà Baidu, l’ogre chinois. Ce qu’il faut comprendre c’est que plus votre index est gros, plus vous obtenez des résultats pertinents. Mais passée une taille critique, l’index est pollué par un trop plein d’informations. D’où un manque de pertinence passée une certaine taille, et un déficit de productivité côté utilisateur.

Nova Spivack, de radarnetwoks, explique que le web est aujourd’hui en pleine explosion en terme de volume d’informations. Il sera de plus en plus dur d’accéder à l’information que vous recherchez. Comme lui, je crois très fort au web sémantique et à l’avénement de nouveau modes de recherche basés sur les microformats. A partir du moment où votre contenu, et à fortiori votre code, est structuré, alors les applications informatiques pourront les interpréter et les comprendre. Nous parviendrons ainsi à un accés pertinent à l’information que l’on recherche. C’est pourquoi j’en appelle à tous les développeurs et à tous les producteurs de contenus, allez lire ceci et commencez à intégrer les microformats. J’attends également celui qui saura pondre une version de WordPress intégrants ces balises…