Les meilleurs administrateurs SGBD freelances sont sur Codeur.com
Fermé · 30 à 300 € · 7 offres · 370 vues
Bonjour à tous,
Je cherche à développer un outil d'extraction automatique de données textuelles sur des pages webs définies. Une sorte d'aspirateur web ultralocalisé en quelque sorte. En voici les principales fonctionnalités (idéalement tout en mode web sous forme de pages php/mysql).
1- Création d'un modèle d'extraction de données : je paramètre les données de récupération d'un modèle de page web en repérant dans le HTML des balises "avant" et "après" pour récupérer les données entre ces balises. En théorie je voudrais récupérer une dizaine de blocs textuels dans cette page web (texte éditorial, liens....). J'enregistre ce modèle, parmi d'autres. Chacun ayant un nom différent et ses propres balises avant après. Un modèle est modifiable et duplicable.
2- URL à crawler : je rentre une série d'URL à crawler après avoir choisi un modèle. L'outil va donc passer en revue toute les pages web que je lui ai données et extraire à chaque fois les blocs de données sur lesquels le modèle est configuré.
3- Récupération des blocs de données : l'outil récupère ainsi pour chaque page crawlé des blocs de données (texte édito ou liens) et me stocke tout ça dans un fichier tabulé (csv ou texte tabulé) que je peux ensuite restructurer et réorganiser comme je veux.
Merci pour vos propositions ;-)
Budget indicatif : 30 à 300 €
Publication : 20 juin 2011 à 13h39
Profils recherchés : Expert BDD freelance , Développeur PHP freelance
7 freelances ont répondu à ce projet
5 propositions de devis en moins de 2h
Montant moyen des devis proposés : 143 400 €
Estimation du délai : 19 jours