Vol de contenu : 7 techniques pour lutter contre le scraping de votre site

lutter contre le scraping

Sur Codeur.com, trouvez rapidement un freelance pour réaliser votre projet Content Marketing. Voir les rédacteurs web disponibles

Le scraping, vous connaissez ? C’est l’extraction d’informations d’un site web avec ou, le plus souvent, sans le consentement du propriĂ©taire du site. Bien que le scraping puisse ĂȘtre effectuĂ© manuellement, il est la plupart du temps effectuĂ© automatiquement par un robot, bien plus productif qu’un humain.
La plupart des scrapings de sites web sont effectuĂ©s dans une intention malveillante. Et bien sĂ»r, il existe plusieurs techniques de scraping, contre lesquelles vous pouvez avoir envie de lutter : la consĂ©quence sur votre serveur est souvent trĂšs pĂ©nible, le site est lent, trĂšs lent, et dans certains cas votre site peut mĂȘme devenir inaccessible. Face aux contre-attaques des propriĂ©taires de sites, les robots scrapers se sont modernisĂ©s, ont appris Ă  se faire plus discrets, plus respectueux de votre bande passante
 Il n’en reste pas moins qu’ils continuent de piller votre contenu en toute impunitĂ©.
Dans cet article nous allons voir comment lutter contre le scraping.
 

1. Ne pas afficher d’informations sensibles sur votre site web

Cela peut paraĂźtre Ă©vident, mais c’est la premiĂšre chose Ă  faire si vous craignez vraiment que des scrapers ne volent vos informations. AprĂšs tout, le scraping de sites web n’est qu’un moyen d’automatiser l’accĂšs Ă  un site web donnĂ©. Si vous ĂȘtes d’accord pour partager votre contenu avec toute personne visitant votre site, peut-ĂȘtre n’avez-vous pas besoin de vous inquiĂ©ter des scrapers.
AprĂšs tout, Google est le plus grand scraper du monde et personne ne semble s’inquiĂ©ter lorsque Google indexe leur contenu. Mais si vous craignez qu’il tombe entre de mauvaises mains, alors peut-ĂȘtre qu’il ne devrait pas se trouver lĂ , tout simplement.
 

+250 000 freelances disponibles sur Codeur.com

Recevoir des devis gratuits

Rapide, gratuit et sans obligation

2. Limiter le débit pour les adresses IP individuelles

Adresse IP
Si vous recevez des milliers de requĂȘtes Ă  partir d’un seul ordinateur, il y a de fortes chances que la personne qui se trouve derriĂšre ait lancĂ© un scraping automatisĂ© sur votre site. Le blocage des requĂȘtes provenant d’ordinateurs qui sollicitent un serveur Ă  un rythme trop Ă©levĂ© est l’une des premiĂšres mesures que les sites emploient pour arrĂȘter les scrapers de pages web.

Attention : Gardez Ă  l’esprit que certains services proxy, VPN ou rĂ©seaux d’entreprise prĂ©sentent tout leur trafic sortant comme provenant de la mĂȘme adresse IP, vous pourriez donc bloquer par inadvertance de nombreux utilisateurs lĂ©gitimes qui se connectent tous par la mĂȘme machine.

De plus, si un scraper dispose de suffisamment de ressources, il peut contourner ce type de protection en configurant plusieurs machines, Ă  diviser d’autant le nombre de requĂȘtes par machine.
Enfin, les scrapers peuvent Ă©galement ralentir leur robot pour qu’il attende entre les requĂȘtes, et qu’il apparaisse comme un utilisateur lĂ©gitime.

À lire aussi : Comment dĂ©tecter les bots dans le trafic de votre site ?

 

3. Utiliser des CAPTCHAs

recaptcha
Vous le savez, les CAPTCHAs sont conçus pour distinguer les humains des ordinateurs, en présentant des problÚmes que les humains trouvent faciles, mais que les ordinateurs ont du mal à résoudre.
Si les humains ont tendance Ă  trouver ces problĂšmes faciles, ils ont aussi tendance Ă  les trouver extrĂȘmement ennuyeux. Les CAPTCHAs peuvent ĂȘtre utiles, mais doivent donc ĂȘtre utilisĂ©s avec parcimonie. Si un visiteur procĂšde Ă  des dizaines de requĂȘtes par secondes, proposez-lui un CAPTCHA, en expliquant Ă©ventuellement que son activitĂ© est suspecte. Inutile d’embĂȘter tous les visiteurs


Pour apprendre Ă  installer un reCAPTCHA sur votre site WordPress, vous pouvez suivre notre tutoriel pas Ă  pas.

Le problùme reste entier puisque nous l’avons vu, les scrapers peuvent feindre un comportement normal.
 

4. Créer des pages « Honeypot »

honeypot
Une technique que j’aime beaucoup : les honeypots (littĂ©ralement pots de miel, ou pages leurres) sont des pages qu’un visiteur humain ne visiterait jamais. Un robot chargĂ© de cliquer sur chaque lien d’une page, lui, pourrait tomber dessus.
Par exemple, le lien est peut-ĂȘtre configurĂ© en display: none; dans le CSS, ou Ă©crit en blanc sur fond blanc pour se fondre dans l’arriĂšre-plan de la page.
Lorsqu’une IP visite une page leurre, vous pouvez raisonnablement penser qu’il ne s’agit pas d’un visiteur humain, et limiter ou bloquer toutes les requĂȘtes de ce client.

5. Exiger une connexion pour l’accĂšs

HTTP est un protocole intrinsĂšquement apatride, ce qui signifie qu’aucune information n’est conservĂ©e d’une requĂȘte Ă  l’autre, bien que la plupart des clients HTTP (comme les navigateurs) stockent des Ă©lĂ©ments tels que les cookies de session.
Cela signifie qu’un scraper n’a pas besoin de s’identifier pour accĂ©der Ă  une page web publique. Mais si cette page est protĂ©gĂ©e par un identifiant, le scraper doit alors envoyer des informations d’identification avec chaque requĂȘte (le cookie de session) afin de visualiser le contenu, qui peut ensuite ĂȘtre tracĂ© pour voir qui scrape votre site.
Cela ne mettra pas fin au scraping, mais vous donnera au moins un aperçu de l’identitĂ© des personnes qui accĂšdent Ă  votre contenu pour se l’accaparer.
 

6. Changer réguliÚrement le HTML de votre site web

Les scrapers s’appuient sur la recherche de schĂ©mas dans le balisage HTML d’un site, et utilisent ensuite ces structures comme indices pour aider leurs scripts Ă  trouver les bonnes donnĂ©es dans le HTML de votre site.
Si le balisage de votre site change frĂ©quemment ou est incohĂ©rent, vous pourrez peut-ĂȘtre frustrer le scraper au point qu’il abandonne.
Cela ne veut pas dire que vous devez refaire entiĂšrement votre site. Il suffit de changer la classe et l’ID dans votre HTML (et les fichiers CSS correspondants) pour faire Ă©chouer la plupart des scrapers.

Attention : Notez que les scrapers ne seront pas les seuls à vous détester et que vous risquez également de rendre vos développeurs fous.

 

7. IntĂ©grer l’information dans des medias objects

pdf
La plupart des scrapers Web se contentent d’extraire une chaĂźne de texte d’un fichier HTML.
Si le contenu de votre site web se trouve Ă  l’intĂ©rieur d’une image, d’un film, d’un PDF ou d’un autre format non textuel, vous venez de compliquer considĂ©rablement la tĂąche du scraper : l’analyse du texte d’un objet n’est pas dans ses cordes.
Le gros moins, c’est que cela peut rendre votre site lent Ă  charger, qu’il sera beaucoup moins accessible pour les utilisateurs aveugles (ou autrement handicapĂ©s), et cela rendra la mise Ă  jour du contenu difficile. Sans compter que Google ne va pas non plus aimer !
 

Conclusion

Toute mesure que vous prendrez pour limiter les scrapers de pages web nuira probablement aussi Ă  l’expĂ©rience utilisateur. Si vous publiez des informations sur votre site web pour que le public puisse les consulter, vous  devez permettre un accĂšs rapide et facile Ă  ces informations. Le problĂšme Ă©tant que ce n’est pas seulement pratique pour vos visiteurs, ça le sera aussi pour les scrapers.
Si toutes les solutions prĂ©sentĂ©es ici ne sont pas idĂ©ales, certaines d’entre elles peuvent vous aider Ă  lutter efficacement contre les scrapers les plus nuisibles. Mais il sera pratiquement impossible d’éradiquer tous les scrapers !
Vous pensez que votre site internet ou votre application présente des failles de sécurité ? Des experts en cybersécurité peuvent vous proposer des audits pour identifier les potentielles menaces. Publiez votre projet gratuitement sur Codeur.com et recevez leurs devis rapidement.