Webscraping automatisé scan de news releases par mots clés variables

Fermé · 500 € à 1 000 € · 12 offres · 1117 vues · 10 interactions

Faire une offre Publier un projet similaire

Bonjour,
Je recherche un développeur expérimenté pour concevoir un outil de web scraping capable d’extraire automatiquement des données depuis le site [URL visible pour les membres Pro] Voici les fonctionnalités et besoins spécifiques :

1.Extraction automatique et périodique :

-L’outil doit extraire les nouvelles publiées sur le site 2 à 4 fois par jour.

-Il doit également permettre de sélectionner une période spécifique pour l’extraction (par exemple, toutes les nouvelles publiées à une date précise ou entre deux dates).

2. Filtrage par mots-clés :

-L’outil doit permettre de paramétrer des mots-clés pour extraire uniquement les nouvelles pertinentes selon mes besoins.

-Si cela est trop complexe, je suis ouvert à une solution où les données complètes sont extraites, et le filtrage par mots-clés peut être réalisé dans le fichier généré (Excel, CSV, etc.).

3. Gestion des nouvelles chargées dynamiquement :

-Actuellement, je rencontre des limitations avec l’extension Google Chrome Web Scraper, qui ne capture que les nouvelles visibles sans charger manuellement le reste du fil. L’outil devra surmonter cette contrainte et extraire toutes les nouvelles disponibles.

4. Extraction de contenu PDF :

-Certaines nouvelles émanant de "sedar" sont publiées sous forme de fichiers PDF. L’outil devra également être capable d’extraire le contenu texte de ces fichiers PDF.

5.Facilité d’utilisation :

-Je n’ai pas d’expérience avancée avec des outils complexes, donc la solution proposée devra être intuitive et facile à utiliser pour un non-développeur.

Contexte actuel :

J’utilise actuellement l’extension Google Chrome Web Scraper, mais mes connaissances limitées font qu'elle est insuffisante pour répondre à mes besoins.

Livrables attendus :

-Un outil fonctionnel et adaptable répondant aux spécifications ci-dessus.

-Une documentation claire expliquant comment utiliser l’outil (installation, configuration des paramètres comme les mots-clés ou la fréquence d’extraction).

-Assistance technique initiale pour la mise en place si nécessaire.

Compétences recherchées :

-Expertise en web scraping (Python avec Beautiful Soup/Scrapy, Selenium ou autres outils adaptés).

-Expérience avec la gestion des sites dynamiques et des fichiers PDF.

-Capacité à concevoir une interface utilisateur simple ou à fournir une solution clé en main facile à utiliser.

Je reste disponible pour toute question ou clarification afin de vous aider à mieux comprendre mes besoins.

Au plaisir de collaborer avec vous !