BLOG

Guerre dans les SERP

05 Nov 2012, Posté par D. Bocquelet dans Digital
Dark Side SEO Black Hat

On se demande comment, durant deux années funestes (avant le plein déploiement de Panda), les résultats de recherches avaient pu être pollués à ce point. Sur toutes les requêtes ou presque, les même sites revenaient le plus souvent, et pas un, mais plusieurs. Et pour ceux qui avaient le malheur de suivre ces liens, une fois sur place ne trouvaient qu’un sabir incompréhensible et le semblant de l’ombre de ce qui aurait pu s’appeler une demi-réponse à leur requête. Par contre d’autres liens, beaucoup, et des publicités intrusives très présentes. Retour d’enquête sur des pratiques qui ont sérieusement maltraité la recherche sur internet :

FERMES DE LIENS et autres « MACHINE A TUER » en SEO :
Les fermes à contenus avaient été de cette catégorie de machines ultra-optimisées pour Google. Outre leurs pages très optimisées, ils proposaient du « contenu à la demande », selon un principe simple : Créer des textes en « cadavre exquis » pour répondre à toutes les demandes des internautes, à savoir des pages dynamiques répondant à une requête complexe (« long tail » dans le jargon), ou bien faire appel à une base de donnée gigantesque alimentée par des armées de rédacteurs payés au kilomètre, et ce avec une traduction automatique (notamment en utilisant à la volée l’API de google translate). Ce n’était pas seulement les textes qui étaient créés automatiquement et produisaient un volume considérable de pages consultées, mais proposaient également des liens suroptimisés également « long tail » de déclinaisons dans le même champ sémantique. On pourrait se demander quel est l’intérêt de ces sites ? Tout simplement par leur mode de financement : Publicitaire, basé sur leur récurrence dans les résultats et donc leur volume de fréquentation et de consultation. Ces pages affichaient jusqu’à 5 espaces publicitaires et plus, bien entendu ultra-ciblés, et principalement de résultats google. Les concepteurs de ces sites espéraient que Google réfrénerait ses sanctions à l’égard de leurs sites, leur propre fond de commerce en dépendant.

Et pourtant. Après avoir essuyé des volées de bois vert, le géant californien à préféré « faire le ménage », quitte à perdre des surfaces pour ses annonces (en se rattrapant sur d’autres services).

Les choses ne sont pas terminées pour autant dans cette course aux armements entre les tricheurs et le « maître de cérémonie ».

Il est théoriquement possible de faire une « machine à tuer » en SEO à l’heure de Panda, un site captant pratiquement toutes les requêtes imaginables, mais en proposant du contenu « humainement rédigé » de préférence par des locuteurs connaissant leur sujet, ou un agrégat, selon le cas, de produits issus des flux RSS venant de sites marchands, avec des textes enrichis d’agrégats venant d’autres sites (de passionnés du domaine par exemple) de manière à former un contenu très riche, recombiné, pour ne pas tomber dans le « duplicate content ».

L’autre objectif est d’avoir un taux de rebond le plus bas possible, en faisant « tourner les internautes » en interne (Une sorte de moteur dans le moteur). La grande difficulté, à moins d’avoir sous la main une armée de rédacteurs de qualité (qui coûtent cher), est d’utiliser un « composeur-recomposeur » sémantique intelligent, suffisamment pour faire passer du spinning pour de la grande littérature.

Une IA capable de digérer des textes venant de l’extérieur, de les reformuler entièrement, puis de les recomposer de manière logique (avec des balises H bien senties), pour former un agrégat parfait à forte valeur sémantique, donnant donc du « jus » aux liens dynamiques. Il va sans dire que dans ce genre de site, les pages sont totalement dynamiques, le titre long est littéralement le décalque de la requête tapée par l’internaute, et la description est automatisée en fonction de l’agrégat. Cela sous-entend que dans l’ordre de chargement, l’agrégat soit « prêt » avant même que la balise de tête le soit.

La durée de cette composition fait face à plusieurs écueils :
-Si la page est partiellement dynamique, cela revient à composer du contenu venant d’une base de données considérable, un logiciel croisant les données pour produire le contenu, puis éventuellement réécrivant les descriptifs optimisés d’images et de liens, pour intégrer des mots-clés issus de la requête. Dans l’autre cas, la page n’est pas dynamique du tout, mais cela implique de disposer de milliards de pages toutes faites au garde-à-vous, avec bien souvent des termes et champs lexicaux communs. Un beau gâchis d’espace, qui se traduit en gigaoctets de stockage. Si la solution est séduisante pour la rapidité d’affichage, elle reste utopiste.
-Quand à la page totalement dynamique, elle suppose non seulement d’avoir des API équilibristes pour intégrer des contenus très différents en les recomposant à la volée, mais surtout un parseur bodybuildé et hyper-vitaminé, une sorte de web-scrapping puissance dix mille… Cette solution est séduisante (contenus à l’extérieur), mais incertaine (les liens changent,les contenus indexés disparaissent) et surtout très gourmande en puissance navigateur. Cela implique de toute façon, à la base, de juger de la pertinence des contenus qui seront agrégés (des centaines de milliards de phrases et de paragraphes).

Outre un logiciel de veille gratuit qui permettrait aux internautes de noter des sources, il n’existe aucune application actuellement pour cela. N’oublions pas qu’une grande partie du web « visible » provient actuellement de scrapping d’informations authentiques -les veilleurs le savent bien- parfois la donnée originelle est même difficile à trouver. C’est la rançon de la surinformation automatisée.

Une chose reste certaine dans tous les cas de figure : La richesse et la qualité du contenu sont des valeurs entretenues aussi bien par Google, que par Bing et d’autres moteurs de recherche qui restent dans son ombre. Elles sont donc susceptibles de rester au sommet des recherches d’optimisation des sites pour des années encore, quelque soient les changement d’algorithme de Google. Un aspect reste sensible, celui de la qualité et de la pertinence des liens pointant vers le site, une démarche qui demanderai le cas échéant de créer des sites entiers de référence pour les requêtes les plus complexes, ou une galaxies de micro-sites créés automatiquement sur un grand nombre d’ip différentes, leur nom de domaine étant un sous-domaine apparent généré lui aussi, de même que ses contenus agrégés « à la demande ». Ces derniers n’auraient pas pour objectif un taux de rebond maximisé mais simplement de servir de support « léger ». Les supports « lourds », ceux donnant le plus de jux aux yeux de google sont les sites institutionnels, toujours très difficile à alimenter pour des requêtes hyper-précises.

Il reste enfin un champ technique à appréhender, le domaine « hyper-sémantique », encore au stade de la théorie et des expérimentations. Ce dernier consiste à croiser des données et contenus en utilisant un champ lexical produit pas des associations sémantiques (les plus courantes, mais cela promet d’évoluer). C’est un peu le principe du jeu du marabout, mais en utilisant les associations « communes », celles partagées par le plus grand nombre de personnes. On peut prendre exemple d’un embryon de ce système, qui existe au niveau de YouTube et de bien des sites boutiques dont Ebay (ceux qui ont aimé/acheté ont aussi aimé…).

Toutefois le champ lexical considéré est purement textuel, et bien entendu dépends de la lisibilité de contenus par forcément optimisés et potentiellement enterrés dans les profondeurs du web. Le domaine hyper-sémantique n’est pas fait que d’assimilations et associations faciles, mais aussi de liens moins évidents, mais de toute évidence très partagés. Tout est mesurable en l’espèce, il suffit par exemple de reprendre la suite des requêtes d’un internaute cherchant une information particulière et ne la trouvant pas : L’agrégat de ces requêtes, rapprochées de requêtes proches d’autres internautes, constituent un maillage sémantique exploitable pour poser les bases de ce système, avec un tri statistique et des filtres.
Le concept d’hyper-sémantique n’est pas qu’un effet de manche ultra technique destiné à mettre en valeur les experts autoproclamés du « Web 3.0″.

Loin d’être une chimère, il est très sérieusement pris en compte dans les développements de l’e-commerce. En effet, que la recherche d’un internaute soit comprise plus intelligemment que du simple ciblage, et on arrive à l’hyper-ciblage », le navigateur « pense et apprends » de l’internaute afin de lui proposer des produits et services avant même ou pendant qu’ils sont formulés. Le but étant de maximiser le passage de l’impression au clic et du clic à l’acte d’achat (taux de transformation). On l’imagine sans peine, si le moteur de cette évolution vient du secteur marchand, qui soutient l’économie mondiale, sa réalisation concrète est bien en vue.