Les meilleurs administrateurs SGBD freelances sont sur Codeur.com

Web scraping : scraps d'urls de sites wordpress

 Terminé·500 € à 1 000 €·10 offres·955 vues·33 interactions


Bonjour,

Votre mission : Dans le but de créer par la suite des corpus sémantique en langue anglaise, je cherche une personne en mesure de scrapper des articles sur des pages web depuis une liste d'urls pour en extraire les articles (titres + textes des articles).

Je fourni : une liste sous excel de 89 258 urls d'articles de taille variables qui sont des articles issu de sites internet US qui sont tous sous wordpress (89 domaines différents mais 64 ont exactement la même structure et parasites).

Ce qu'il me faut au final : sur plusieurs colonnes d'un fichiers excel ou CSV, il faudra extraire : Colonne 1 > url de la page, Colonne 2 > titre h1 de l'article, Colonne 5 > l'ensemble du contenu texte de l'article en texte brut sans les parasites. On souhaite aussi garder sa forme initiale (les interlignes, sauts de ligne, <p> et aussi les listes à chiffre ou à puces ) et les balises des intertitres (h2 et h3, h4).

Ce que je ne veux pas garder : pas de codes html parasites (balises, pub, images ou autre parasites), pas de code des liens (mais on garde l'ancre de celui ci), pas d'images, pas de pubs, pas de signature, de lire aussi ...

Outils : celui que vous voulez, votre script ou alors RDDZ, ScrapeBox, Apify, ParseHub, Scrapinghub ...

Format du rendu : pas besoin de votre outil / code, il me faut le fichier excel / CSV avec les datas

Test : Pour un test afin de vérifier qu'on se comprend bien sur nos besoins et le rendu final merci de me demander 3 urls en message privé. Merci de me redonner ensuite l'exemple de ce que vous pouvez extraire / avoir comme rendu final ,sous excel ou CSV afin de vérifier que cela correspond à nos besoins et me confirmer que vous pouvez scraper la liste de données ci dessus et exclure ce qui n'est pas nécessaire .

Merci de me donner :
- votre tarif pour cette mission,
- votre délai de réalisation,
- votre protocole et moyen de paiement
- votre confirmation que vous pouvez faire une facture (offshore possible).

Merci d'avance pour votre devis,

Budget indicatif : 500 € à 1 000 €

Publication : 08 février 2020 à 17h06

Profils recherchés : Expert BDD freelance, Développeur Symfony freelance, Développeur PHP freelance

Le profil du client est reservé aux prestataires abonnés

Créer un compte

10 freelances ont répondu à ce projet

9 propositions de devis en moins de 2h

+3

Montant moyen des devis proposés : 450 €

Estimation du délai : 2 jours

Publier un projet similaire

Projet réalisé par Carlotronics

Carlotronics
SEVRES, 92310

Chaque jour, des centaines de clients utilisent Codeur.com pour trouver un prestataire. Créez votre compte dès maintenant, remplissez votre profil et trouvez de nouveaux clients.

Trouver des nouveaux clients

Votre navigateur Web n’est plus à jour. Il ne permet pas d’afficher correctement le site Codeur.com.
Nous vous invitons à mettre à jour votre navigateur ou à utiliser un autre navigateur plus récent.