BLOG

Top 10 des moteurs de recherche gratuits

23 Oct 2013, Posté par D. Bocquelet dans Regard sur l'actualité

La recherche « no noise » en gratuit, ce n’est pas pour tout de suite !

En veille, on peut utiliser une surveillance de sites internet choisis par flux RSS, mais beaucoup n’en ont pas.

Ce sont particulièrement les sites corporate de petites sociétés, et fournisseurs qui n’ont pas par nature une grosse actualité.

Le complément c’est donc un moteur de recherche pour pouvoir parser ces informations du « web profond », invisibles mais pourtant vitales dans certaines secteurs d’activité.

Nous avons testé plusieurs moteurs et comparé leurs avantages et inconvénients. Nous avons éliminé les moteurs fanco-français (comme voilà) et les moteurs thématiques de ce test. Les moteurs abandonnées ou en cours de déménagement sont également hors-course tout comme les moteurs professionnels non-publics comme Sinequa ou Polyspot.
Ce test s’est basé sur une requête type susceptible d’être tapée par un veilleur professionnel sur un sujet donné, technique, précis. Ici c’est « scrubber » (un système de recyclage du CO2, permettant de réduire l’impact environnemental des rejets de carbone), et comme nous cherchons ce système uniquement pour des navires, cela donne scrubbers+ships.

Moteur de recherche Avantages Inconvénients
Nombreux résultats (855 ko) 

Pagination pratique

booléens acceptés

Résultats orientés en fonction profil 

Trop de résultats commerciaux

Possibilité d’afficher plus de 100 résultats/page 

Paramétrage possible langue

Résultats trop limités (30) 

Déconnexion préalable de son compte microsoft

Trop de résultats commerciaux

Nombreux résultats (404 ko) Déconnexion préalable 

Basculer sur sur yahoo.com

Résultats commerciaux trop présents

Couplage avec google


Affiche les favicones des sources Résultats limités et non pertinents 

N’accepte pas les booléens

trop de résultats commerciaux (+70%)


Vignettes 

Rapide

Pas trop de résultats commerciaux

Trop peu de résultats (30) immédiatement visibles. 

Pagination peu ergonomique.

Bonne pagination 

Peu de résultats commerciaux

Relativement lent 

Pertinence courte (deux pages)

Rapide Pertinence vite perdue (sémantique approchante) 

Trop peu de résultats par page

Rapide 

Bonne pertinence

Bonne pagination

Statistiques & filtrage

Pertinence courte (-30 résultats sur la requête)
Epuré Trop peu de pertinence sur la requête 

Trop de résultats commerciaux

Partenariat avec Yandex

Bonne pagination 

Bonne pertinence

Pas de surlignage sémantique 

Ads trop présents sur les pages de recherche

Pertinence courte (env. 20 résultats)

Au final : Exalead (Dassault systemes) est le moteur qui s’en sort le mieux et a les options les plus intéressantes en accès public. Toutefois l’absence ou presque de résultats commerciaux masque une pertinence vite perdue dans les SERPs sur la requête, et le volume reste modeste.

Nos observations :

  1. Les technologies sont matures et la recherche est rapide.
  2. Dans certains cas, il est nécessaire de se déconnecter avant toute recherche
  3. La pagination sur 10 pages de 10 résultats est standard, mais les ads (publicités) parasitent parfois la consultation
  4. L’acceptation des booléens (ici « + ») est également standard
  5. La pertinence des résultats initiaux (3 premières pages) dépend du volume initial et du traitement ou non des liens commerciaux
  6. Les options de personnalisation de la recherche sont rares
  7. Problème de redirection pour Google, il faut se connecter en mode anglophone.

Le moteur de recherche parfait serait celui qui peut tirer profit de la base de google, après avoir filtré un grand nombre de paramètres, sans parasitage commercial ou personnel.

Exemple : Préciser le champ sémantique pour un terme polysémique. Ex. « Tank » veut aussi bien dire « char d’assaut » que « réservoir ». Préciser une catégorie comme « défense » permettrait déjà de passer outre les ambiguïtés.

Problème : Ce genre d’indexation est impossible sur une grosse masse de données. La plupart de sites internet ne précisent pas de balise meta « category » tout simplement par méconnaissance des webmasters et SEO sur son avantage possible.

Solution : Une indexation sémantique des contenus pour en déduire une ou plusieurs catégories, ainsi que le champ sémantique élargi du site qui fournit des indices supplémentaires. C’est un système déjà en place sur Google, mais beaucoup de moteurs n’ont pas la capacité de suivre.

La possibilité de filtrer les résultats avant ou après la requête avec plusieurs critères, est rarement une possibilité donnée par des moteurs de recherche gratuits. De même l’analyse graphique des résultats est quasi-absente du paysage. En revanche il s’agit de fonctionnalités attendues sur des outils payants.

Autre problème : La base de recherche est sur le gratuit en « tout-venant ». On mélange les informations issues de blogs personnels, forums, documents pdf, sites d’actualités spécialisés et presse généraliste, et liens et sites commerciaux.

Deux solutions sont possibles :

  • Soit le WWW est scanné sur le plan technique en amont (lorsque le filtrage par type de site existe -et est possible)
  • Soit on effectue une recherche sur une base de données qualifiée et contrôlée, c’est le cas de RSS Sourcing.

Enfin, la vérification de pertinence, qui s’effectue en lisant les descriptifs des résultats affichés. Un surlignage ou passage en gras des termes de la requête au niveau de l’URL, du descriptif (balises meta) et contenu, sont une aide précieuse, malheureusement pas encore généralisée.

La consultation des pages de résultats est sans doute l’étape la plus chronophage. Là encore les algorithmes du moteur décident quels sites sont les plus « pertinents » sur la requête, et le travail des SEO vient parasiter encore ces SERPs par des résultats commerciaux. La consultation donc du « web profond » reste donc un challenge, qu’un système permettrait de contourner : Celui des alertes, avec le bémol du sourcing qui est derrière. S’il ne se base que sur des fils d’actualité, cela est perdu d’avance.  Il peut y avoir en effet une information très valable bien enterrée dans un pdf de présentation technique, lui même difficilement accessible sur un site internet n’ayant pas d’actualité. Il faut donc un « bot » agressif et passe-partout à la google, mais qui puisse en même temps forwarder les informations de ce « web profond » en temps réel, en parfait « pull ».

Pour l’anecdote, Yahoo et Bing ont tous deux décidé de changer de logo dernièrement. Voici les différentes options testées par Marissa Mayer, ex porte-parole de Google maintenant à la tête de Yahoo.