Les meilleurs développeurs Ruby on Rails freelances sont sur Codeur.com

Extraction du texte brut d'un site internet

 Terminé·500 € à 1 000 €·14 offres·1561 vues·34 interactions


Nous recherchons un freelance a priori spécialisé en développement Python/Ruby/PHP afin de construire une application permettant d'extraire la totalité du texte brut d'un site internet à partir d'un nom de domaine et ceci de manière automatisée à partir d'une liste de noms de domaine prédéfinis (sous format csc ou excel) et stocker cette information dans un nouveau fichier sous format csv/excel.

Voici le cahier des charges un peu plus détaillé pour ceux qui souhaitent affiner leur devis :
- Fichier source :
Format Excel ou csv constitué de données en format colonne definies comme suit :
Num : numéro d’identification
NomDom : nom de domaine sous format » nomdomaine.ext ». Ce sont essentiellement des noms de domaine de sociétés BtoB

- Construction de la donnée Textbrut :
Etape 1 : pour un nom de domaine NomDom, trouver le site internet associé en testant les différentes extensions .com/.fr/
Etape 2 : Extraire la totalité du texte brut du site internet (pages activité, contact, …)
Etape 3 : stocker le texte extrait dans la variable Textbrut associé au numéro Num

- Construction de la donnée TexteAct :
Etape 1 : pour un nom de domaine NomDom, trouver le site internet associé en testant les différentes extensions .com/.fr/
Etape 2 : Rechercher et identifier la page correspondant à la description de l’activité de la société correspondant au nom de domaine
Etape 3 : Extraire le texte brut associé à la page trouvée
Etape 4 : stocker le texte extrait dans la variable TextAct associé au numéro Num

- Fichier de restitution :
Format Excel ou csv constitué de données en format colonne définies comme suit :
Num : numéro d’identification
Textbrut : Totalité du texte du site internet
Texte Act : Extraction de texte correspondant à la rubrique « Activité » ou « qui sommes-nous » ou tout autre rubrique de site internet ayant pour vocation à présenter le site.

Budget indicatif : 500 € à 1 000 €

Publication : 01 avril 2019 à 10h08

Profils recherchés : Développeur Ruby on Rails freelance, Développeur PHP freelance, Développeur Python freelance

Le profil du client est reservé aux prestataires abonnés

Créer un compte

14 freelances ont répondu à ce projet

14 propositions de devis en moins de 2h

+7

Montant moyen des devis proposés : 450 €

Estimation du délai : 3 jours

Publier un projet similaire

Projet réalisé par Aurélie L.

Aurélie L.
Croydon, CR0 1HB

Chaque jour, des centaines de clients utilisent Codeur.com pour trouver un prestataire. Créez votre compte dès maintenant, remplissez votre profil et trouvez de nouveaux clients.

Trouver des nouveaux clients

Votre navigateur Web n’est plus à jour. Il ne permet pas d’afficher correctement le site Codeur.com.
Nous vous invitons à mettre à jour votre navigateur ou à utiliser un autre navigateur plus récent.