Le scraping Web, qui consiste à extraire des données de sources en ligne pour des besoins comme la collecte massive d’informations, l’analyse concurrentielle ou la surveillance des prix, nécessitait traditionnellement des compétences techniques spécialisées. Cependant, avec l’avènement de ChatGPT 4, cette tâche est devenue beaucoup plus accessible.

Dans ce tutoriel, nous allons vous montrer comment utiliser ChatGPT pour simplifier le scraping Web. Nous aborderons l’utilisation d’un plugin spécifique ainsi que la création d’un GPT personnalisé pour automatiser cette tâche.

Utiliser le plugin Scraper avec ChatGPT

1. Installer le plugin

Pour débuter, assurez-vous de posséder un compte OpenAI et d’être abonné à l’une des formules payantes. Connectez-vous ensuite à votre compte et cliquez sur le bouton « ChatGPT 4 », dans le coin supérieur gauche de votre interface, puis sur « Plugins ».

Si cette option n’apparaît pas, vous devrez vous rendre dans les paramètres pour activer l’utilisation des plugins. Pour cela, allez dans « Settings&Beta », sélectionnez « Beta features » et activez l’option « Plugins ».

Après avoir terminé cette étape, rendez-vous dans le « Plugin store » en cliquant sur le bouton « No plugins installed ».

Là, vous pourrez rechercher et installer le plugin « Scraper ».

 

2. Exécuter le scraping

Pour initier le scraping avec le plugin, adressez votre requête à ChatGPT en précisant l’URL de la page ciblée et les détails des informations que vous souhaitez extraire.

Nous avons illustré ce processus en l’appliquant à un site de vente de consoles. Voici la requête que nous avons utilisée :

« Scraper cette page web : https://www.ldlc.com/jeux-loisirs/console/console-ps5/c7865/ , identifie dans un tableau le nom du produit, le prix et identifie dans une colonne si c’est une console seule ou un pack, si c’est le modèle digital ou le modèle avec lecteur de disque, si c’est le nouveau modèle slim ou l’ancien et trier par prix croissant. »

Il est essentiel de surveiller attentivement les données extraites pour garantir l’exactitude et l’efficacité du scraping. En cas d’erreurs ou d’imprécisions, n’hésitez pas à demander des ajustements.

 

3. Exporter les données

Dans le cas où vous ne spécifiez pas de méthode d’exportation, ChatGPT présentera les données sous forme de tableau directement dans l’interface. Toutefois, vous avez la possibilité de demander la conversion de ces données au format CSV.

Pour générer un fichier CSV, voici la marche à suivre :

  • Ouvrez un éditeur de texte comme le Bloc-notes (Windows) ou TextEdit (Mac) ;
  • Copiez les données converties ;
  • Collez-les dans l’éditeur de texte ;
  • Enregistrez le fichier avec l’extension .csv, par exemple console.csv

Pour visualiser les données au format CSV, vous pouvez utiliser n’importe quel programme de tableur comme Microsoft Excel ou Google Sheets.

 

Configurer un Chatbot ChatGPT personnalisé pour le Scraping Web

 

Pour créer des GPTs, commencez par vous connecter à votre compte OpenAI muni d’un abonnement payant à ChatGPT. Une fois connecté, naviguez vers l’option « Explore », située dans le coin supérieur gauche de l’écran. Ici, sélectionnez « Create a GPT ».

Cette action vous amènera à l’écran de création d’un GPT. Cet écran se compose de deux parties essentielles :

  • GPT Builder (Partie Gauche) : Cette section est dédiée à la création de GPTs. C’est ici que vous pouvez formuler et transmettre vos directives spécifiques à ChatGPT pour configurer votre GPT personnalisé.
  • Aperçu (Partie Droite) : Cette zone offre un aperçu en temps réel des réponses que le GPT générera en fonction de vos interactions. Toutes les instructions que vous fournirez seront saisies dans la zone de message GPT, située en bas à droite.

Dans cet article, nous souhaitons créer un GPT qui analyse une page Web qui propose en vente des consoles de jeux. Voici les instructions que nous avons données au « GPT Builder » :

« Analysez les fichiers HTML fournis, en vous concentrant uniquement sur les pages proposant des consoles de jeux. Extrayez des informations telles que le nom du produit, le prix, la nature du produit (console seule ou pack), le type de modèle (numérique ou avec lecteur de disque) et si c’est un modèle slim ou l’ancien. Présentez ces informations dans un tableau trié par prix croissant, convertissez-le ensuite en fichier CSV, puis en fichier Excel. Si une page ne contient pas de consoles, excusez-vous poliment et expliquez que vous ne pouvez analyser que des pages avec des consoles de jeux. Fournissez enfin le fichier Excel à l’utilisateur, en l’invitant à le télécharger. »

À chaque fois qu’un utilisateur soumet un fichier HTML d’une page Web, le chatbot entreprend l’analyse de cette page. Il se charge alors d’extraire et de récupérer les informations pertinentes contenues dans le fichier associé à cette page.

Une fois que « GPT Builder » a reçu et analysé vos instructions, il initie une interaction pour clarifier certains aspects de notre GPT personnalisé. Il nous suggère, par exemple, de nommer notre chatbot « Console Scrap » et de sélectionner une photo de profil. Après avoir répondu à ces propositions et finalisé les paramètres dans « GPT Builder », notre chatbot sera créé. Nous pourrons ensuite le visualiser dans la section de prévisualisation située sur le côté droit.

Avant de tester le GPT, nous avons intégré la fonctionnalité « Code Interpreter ». Cette option est particulièrement utile pour le projet de scraping, car elle nous aide à mieux visualiser et analyser les résultats obtenus. Elle joue un rôle dans l’exécution et le débogage du code, ce qui est essentiel pour assurer que le GPT fonctionne efficacement pour l’analyse des pages Web. Pour ce faire, accédez à la section « Configure » de « GPT Builder », puis activez l’option « Code Interpreter ».

Lorsque votre GPT est prêt et répond à vos attentes, n’oubliez pas de le sauvegarder. Pour cela, cliquez sur le bouton « Save » situé en haut à droite de votre écran. Vous aurez alors le choix entre trois options de partage :

  • Only me : Cette option garantit que vous seul aurez accès à ce GPT.
  • Only people with a link : Seules les personnes possédant le lien pourront accéder à votre GPT.
  • Public : Votre GPT sera accessible à tous via le Store de OpenAI. Il est recommandé de choisir cette option uniquement pour des GPTs finalisés.

Il ne nous reste plus qu’à tester le GPT. Pour cela, nous devons récupérer le fichier HTML de la page Web que nous avons évoqué dans la première méthode. Il y a diverses méthodes pour récupérer ce fichier : l’une d’elles consiste à ouvrir la page Web souhaitée dans un navigateur et d’appuyer sur « Alt + S », ce qui permet de télécharger directement le fichier.

Après avoir téléchargé le fichier, nous ouvrons une session du chatbot « Console Scrap ». Nous y attachons ensuite le fichier téléchargé.

Dès lors, le chatbot commence l’analyse de la page Web. En quelques secondes, il traite les informations et nous fournit les données extraites conformément à nos attentes.

Nous avons expérimenté davantage le chatbot en lui donnant un fichier HTML d’une page Web qui vend des livres. Voici le message qu’il a généré suite à ce test :

Si vous devez ajuster votre GPT, accédez simplement à la section « Explore » de votre compte, puis cliquez sur l’icône de stylo située à côté du nom de votre chatbot. Cela vous permettra de modifier les paramètres et d’apporter les changements nécessaires. Une fois les ajustements effectués, testez le chatbot pour vous assurer qu’il fonctionne comme souhaité, puis sauvegardez les modifications.

 

Notre astuce pour des besoins poussés en scraping

Ce tutoriel présente deux méthodes efficaces pour le scraping avec ChatGPT : l’utilisation du plugin « Scraper » pour des tâches rapides et la configuration d’un GPT personnalisé pour une approche plus adaptée à vos besoins spécifiques. Avant de commencer, assurez-vous que le site Web autorise le scraping ou obtenez une permission pour éviter des problèmes légaux.

Si vous faites face à des défis complexes en scraping, pensez à solliciter un développeur freelance. Vous pouvez poster gratuitement une annonce sur Codeur.com pour trouver un expert capable de fournir des résultats alignés avec vos attentes.