Module PHP pour extraire du texte sur une page Web

Bonjour à tous,

Je cherche à développer un outil d'extraction automatique de données textuelles sur des pages webs définies. Une sorte d'aspirateur web ultralocalisé en quelque sorte. En voici les principales fonctionnalités (idéalement tout en mode web sous forme de pages php/mysql).

1- Création d'un modèle d'extraction de données : je paramètre les données de récupération d'un modèle de page web en repérant dans le HTML des balises "avant" et "après" pour récupérer les données entre ces balises. En théorie je voudrais récupérer une dizaine de blocs textuels dans cette page web (texte éditorial, liens....). J'enregistre ce modèle, parmi d'autres. Chacun ayant un nom différent et ses propres balises avant après. Un modèle est modifiable et duplicable.

2- URL à crawler : je rentre une série d'URL à crawler après avoir choisi un modèle. L'outil va donc passer en revue toute les pages web que je lui ai données et extraire à chaque fois les blocs de données sur lesquels le modèle est configuré.

3- Récupération des blocs de données : l'outil récupère ainsi pour chaque page crawlé des blocs de données (texte édito ou liens) et me stocke tout ça dans un fichier tabulé (csv ou texte tabulé) que je peux ensuite restructurer et réorganiser comme je veux.

Merci pour vos propositions ;-)

Budget indicatif : 30 à 300 €

Publication : 20 juin 2011 à 13h39

Profils recherchés : Expert BDD freelance , Développeur PHP freelance