ROBOT 14

Explication du moteur de recherche

Ce spider - crawler - moteur de recherche a été développé par Guy Elen en mars 2014.


Le spider et moteur de recherche est lançé à l'assaut de la planète web le 27 mars 2014.


Technique : ce moteur est totalement réalisé sous php et utlise le SGBD mysql. Ainsi aussi bien la partie crawl(extraction des données du web), que la partie interface utilisateur est réalisée uniquement en php. La recherche Fulltext est asurée par mysql, ce n'est pas le plus performant mais notre optique de codage simple nous a imposer cette solution, il comporte le cahier des charges suivant :
1)rassembler les pages du web Francophone, pour cela le moteur reconnais la langue des pages web, avec une très grande probabilité, pas encore parfait mais à plus de 90%.
2)mémoriser le moins de matière possible, donc déterminer de manière automatique et minimale une "image" du contenu d'une page internet. 3)matériel minimum : ce moteur de recherche utilise un seul serveur, acuellement robot14 tourne sur un VPS 1 core / 2 GB de ram.


Actuellement nous ne parcourons pas le fichier robots.txt des sites crawler, si vous voulez banir notre moteur, utilisez notre useragent :
[Mozilla/5.0 (compatible; robot14/prod1.0; +http://www.robot14.com/bot.php)]
ou notre ND ou notre IP.


Nous faisons de constante amélioration sur ce petit moteur.


N'hésitez pas à nous envoyer vos remarques via le formulaire de contact


Quelques réflexions:


le temps de recherche est compris entre 15 et 19 secondes, énorme en comparaison du maître en la matière à savoir Google. A notre décharge nous n'utilisons q'un seul et petit serveur pour toutes les opérations.
Nous arrivons à bien maîtriser la détection de la langue des sites web, ce qui nous permet de réduire la taille de la base de donnée.


Utiliser le robot de recherche - Formulaire de contact