Les meilleurs intégrateurs web freelances sont sur Codeur.com

Web crawler / scraper : scraps d'urls Wordpress

 Terminé·Moins de 500 €·7 offres·1104 vues·24 interactions


Bonjour, Dans le but de créer par la suite un corpus sémantique en langue anglaise, je cherche une personne en mesure de scrapper des pages web.

Je fourni une liste excel ou .txt de 4 723 Urls qui sont des articles issu de 38 sites internet US (des domaines différents, mais tous sont des CMS Wordpress). A vous de les scraper pour en extraire les contenus.

Ce qu'il me faut au final : sur plusieurs colonnes d'un fichiers excel ou CSV, il faudra extraire : Colonne 1 > url de la page, Colonne 2 > title de la page, Colonne 3 > description seo de la page (si il y en a une), Colonne 4 > h1 de la page (titre de l'article), Colonne 5 > l'ensemble du contenu de l'article en texte brut (pas de code html, balises ou autre, pas de code de liens, pas d'images ...) mais ceci en gardant sa forme initiale (avec les interlignes et les sauts de ligne) et, si cela est possible, il faut garder aussi en place les balises <h2> des intertitres.

Outils : celui que vous voulez, votre script ou alors RDDZ, ScrapeBox, Apify, ParseHub, Scrapinghub ...

Merci de me donner en exemple de ce que vous pouvez extraire / avoir comme rendu final , afin de vérifier que cela correspond à nos besoins et me confirmer que vous pouvez scraper la liste de données ci dessus. Merci de me préciser si vous pouvez garder les H2 suite à l'extraction.

Merci de me donner votre tarif pour cette mission, votre délai de réalisation, votre protocole et moyen de paiement et la confirmation que vous pouvez faire une facture. Je suis ouvert aux prestataires off shore.

Budget indicatif : Moins de 500 €

Publication : 30 mars 2018 à 00h13

Profils recherchés : Intégrateur web freelance, Développeur WordPress freelance, Développeur Windev freelance, Développeur PHP freelance, Analyste de données freelance

Le profil du client est reservé aux prestataires abonnés

Créer un compte

7 freelances ont répondu à ce projet

7 propositions de devis en moins de 2h

G

Montant moyen des devis proposés : 250 €

Estimation du délai : 3 jours

Publier un projet similaire

Projet réalisé par AymericDev

AymericDev
PARIS, 75003

Chaque jour, des centaines de clients utilisent Codeur.com pour trouver un prestataire. Créez votre compte dès maintenant, remplissez votre profil et trouvez de nouveaux clients.

Trouver des nouveaux clients

Votre navigateur Web n’est plus à jour. Il ne permet pas d’afficher correctement le site Codeur.com.
Nous vous invitons à mettre à jour votre navigateur ou à utiliser un autre navigateur plus récent.