Les meilleurs développeurs web freelances sont sur Codeur.com
Fermé·1 000 € à 10 000 €·33 offres·1486 vues·55 interactions
Nous recherchons un freelance, une entreprise, experte en mise en place d'infra de système de scraping, voir de data mining.
Nous souhaitons avoir une plateforme nous permettant d'administrer plusieurs centaines de crawler, allant de site simple type blog, a des plus complexes (bloquage JS, Cloudfront, ou autre), avec possibilité de définir une URL de départ, les xpaths (ou autre selon ce que vous préconiserais) nécessaire pour le crawling, et la sauvegarde en BDD, la priorité des URLs, etc..
Il nous parait plus simple d'avoir un système qui crawl + save en HAR la page, et un autre système qui scrape les données des nouveaux/mises à jours HAR. Mais nous sommes ouvert à toutes autres solutions.
L'ensemble des données seront stockées dans Elasticsearch, si vous avez des compétences nous aidant à définir le mapping / les analyzers, nous sommes aussi preneurs.
Pour résumer :
- Nous créons un site
- Nous le configurons
- Nous définissons la priorité
Et ensuite tout se passe.
Nous souhaitons un système hautement scalable (grappe/cluster de serveur) car à termes il y aura plus de 800 sites à récupérer, avec des mises à jours toutes les heures, tous les jours, ou une fois par semaine.
Ouvert à toute autre idée. N'hésitez pas si vous avez des questions.
Merci de répondre uniquement si vous avez de l'expertise sur ce besoin, avec des projets d'exemple que nous pourrons vérifier.
Budget indicatif : 1 000 € à 10 000 €
Publication : 27 novembre 2019 à 21h37
Profils recherchés : Développeur web freelance, Sysadmin freelance, Développeur spécifique freelance, Développeur JavaScript freelance, Spécialiste data mining freelance
33 freelances ont répondu à ce projet
23 propositions de devis en moins de 2h
Montant moyen des devis proposés : 2 950 €
Estimation du délai : 18 jours
Votre navigateur Web n’est plus à jour. Il ne permet pas d’afficher correctement le site Codeur.com.
Nous vous invitons à mettre à jour votre navigateur ou à utiliser un autre navigateur plus récent.