Les meilleurs développeurs SaaS freelances sont sur Codeur.com

(!) Je souhaite faire développer un crawler WEB :-

 Fermé · 800 à 1 500 € · 3 offres · 820 vues


Je souhaite faire développer un crawler WEB.

L'objectif de ce crawler est de repérer les noms de domaines qui vont bientôt expirer de donc devenir libre et déterminer leurs potentiels

La première page devra permettre de saisir :
1. url de départ : Le crawler devra démarrer son crawl de cette url.
2. mot clef (MC) : pour chaque url trouvées, il faudrait chercher le mot clef dans le contenu ou le nom de domaine (NDD) et passer à la suivante.
a. Règle de gestion (RG) : si le MC n’est contenu ni dans l’url ou la source HTML de la page alors, le crawl devra passer à l’url suivante
3. Un nombre d’url crawler max : permet de stopper le crawl au bout de X urls parcours
4. Exclure certaine extension ou ne chercher que certaines (ex que les « .fr »)
5. Exlure les NDD expirée avec un trustfow de moins d’un certain nombre (< 30)

Le crawler devra contrôler et enregistrer en base de données chaque nom de domaine (NDD) qui ne répond pas un code http "200" (Cannot resolve host) pour obtenir sa date d'expiration.

Pour chaque NDD qui ne réponds pas "200" / (Cannot resolve host) il faut :
1. enregister l'url en question + date d'expiration en base (API whois)
2. Récupérer trustfow et citation fow via API majestic (API sera fournie)

Attention je ne connais pas d'api gratuite pour faire un whois sur les NDD (à chercher). Mettre en place un mécanisme permettant d'obtenir les informations directement depuis les registrars.

Une page de liste des crawls doit permettre de pourvoir
1. stopper ou relancer le crawler
2. Voir le nombre d'url parcourues
3. voir le nombre des NDD expirées + trustfow et citation fow + date d'expiration

Une page de résultat devra permettre l’affichage des NDD expirées :
Apparence pour une page de résultats pour un crawl :
- [URL visible pour les membres Pro] – expire le 12/12/2015 – Trust flow 50 – citation flow – 48 – lien vers OVH

RG : Le paramétrage des API doit être modifiable

Si possible / discuter :
- Permettre de définir des proxy si besoin
- permettre une notion d’utilisateur/mdp (pouvoir donner accès à l’outil à un tiers)
- faut-il partir sur un mode Saas ou client lourd ?
- Quel type de serveur il faut ? un mutualisé est suffisant ? si possible chez OVH.

Merci de préciser le type de langage de programmation que vous allez utiliser.

crawler-WEB.docx

Budget indicatif : 800 à 1 500 €

Publication : 19 octobre 2015 à 08h00

Profils recherchés : Consultant SaaS freelance

Le profil du client est reservé aux prestataires abonnés

Créer un compte

3 freelances ont répondu à ce projet

3 propositions de devis en moins de 2h

Ts-Services Agence web
La-galerie-du-web Agence de développement Symfony
E
Publier un projet similaire

Chaque jour, des centaines de clients utilisent Codeur.com pour trouver un prestataire. Créez votre compte dès maintenant, remplissez votre profil et trouvez de nouveaux clients.

Trouver des nouveaux clients