Bonjour
Je recherche un freelance pour modifier Nutch ou Elasticsearch :
Le Cahier des charges
Créer un crawler qui va chercher les urls uniquement dans une base de données d'annuaire. Il n'y a pas de possibilité de crawler d'autres urls, ni de sous-domaine. Attention le moteur ne crawle pas les pages internes de l'annuaire.
Mettre l'url du site dans un autre état (relation avec la BDD de l'annuaire) si le site ne répond pas.
Créer un indexer: stocker une dizaine d'urls par site et mettre en cache seulement la dernière visite, afin de voir si il y a une MAJ sur la page. Uniquement les pages HTML (pas de PDF, pas d'images, pas d'office).
Clusteriser par thématique (data donnée par l'annuaire)
Formulaire pour la requete
L'algo se base par rapport au position des mots clés, possibilité de gérer des points bonus en fonction de l'optimisation SEO du site.