Mes recherches sur Cuill, probable futur moteur de recherche
Je lis deçi delà beaucoup de choses cool sur Cuill.com (prononcez "cool" pour paraître "in"): un moteur de recherche qui devrait bientôt être lancé aux yeux et surtout aux claviers du grand public. Parmi les fondateurs on trouve un couple marié, des ex-Googlers et qui comme les héros Sergey et Larry viennent de lever $25M, la même somme qu'avait levée Google en 1998, il y a dix ans. Coincidence ou client d'oeil numérique ?
De moteur, il faudrait plutôt à ce stade parler de "crawler", ou petit robot lancé par Cruill, appelé Twiceler, et qui visite vos serveurs web pour "scanner" vos pages web. Car pour l'instant on ne peut pas encore utiliser Cuill.com, et c'est bien le robot Twiceler qui semble bien faire la force de cette start-up. D'ailleurs, le nom est plutôt mal trouvé. De Twiceler on devrait l'appeler ThousandTimesLer, tellement le robot passe des centaines de fois sur chaque site web, parfois jusqu'à 2000 fois par jour ! (vu sur le forum de webrankinfo ici). Le problème étant pour les webmasters qu'un crawler mange de la bande passante..qu'il paie de sa poche. D'ailleurs, c'est déjà plus de 10 000 sites web (ce qui est certes peu) qui ont bannit Twiceler de leur server.
Les fondateurs affirment que leur technologie est capable d'indexer les pages web en demandant 10 fois moins de ressources (comprenez de servers chez eux pour stocker les pages "crawlées" sur la toile) que n'en a besoin Google. On peut les croire, en sachant que les deux fondateurs sont des spécialistes du crawling et tout particulièrement Anna Patterson dont voici la page à Standford, à lire absolument si vous êtes fans de computer science.
Alors s'agit-il d'un Google-killer ? Un concurrent qui pourra détrôner Google. Franchement, je ne pense pas. D'abord parce que le crawling n'est qu'une petite brique dans l'édifice moteur de recherche. Par exemple les algo de pertinence sont critiques. Et ce n'est pas le terrain de jeu de Cuill, même s'il parle de "recherche sémantique" c'est-à-dire d'indexation non plus par les mots mais par des phrases.
Je pense qu'il s'agit plus d'une avancée technologique majeure dans le crawling qui va permettre à des anciens ingénieurs de Google de revenir chez Google, tout comme l'avait fait les fondateurs de Applied Semantics qui feront alors l'analyse du contenu des pages web pour calculer la pertinence d'AdSense.






