GoogleBot : surveiller son activité dans Google Analytics

Sur Codeur.com, trouvez rapidement un freelance pour réaliser votre projet Google Analytics. Voir les consultants Analytics disponibles

En règle générale, les serveurs Web tiennent un journal de chaque requête reçue dans un fichier « log ».
Les fichiers logs du serveur contiennent un enregistrement de chaque fichier servi à un client web, y compris les pages servies à Googlebot, et révèlent des informations précieuses sur la façon dont les moteurs de recherche explorent un site web.
Cependant, les fichiers logs sont souvent difficiles d’accès et de traitement. L’utilisation de Google Analytics pour suivre Googlebot est une technique alternative intéressante pour quiconque cherche à analyser le crawl d’un moteur de recherche, sans la corvée fastidieuse et chronophage de devoir analyser les fichiers logs.
 

Introduction aux fichiers logs d’un serveur Web

Chaque fois qu’un fichier est demandé à un serveur web (lorsqu’un utilisateur visite une page via son navigateur ou qu’un robot de moteur de recherche parcourt une URL), une ligne de texte est ajoutée à un fichier log.
La ligne de texte détaille l’heure et la date de la demande, l’adresse IP de la demande, l’URL ou le contenu demandé, et le user agent du navigateur :
188.65.114.122 –[24/Oct/2019:08:07:05 -0400] "GET /resources/whitepapers/ retail-whitepaper/ HTTP/1.1" 200 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Généralement, un nouveau fichier log est créé chaque jour avec un nouveau nom de fichier.
Analyse GoogleBot

+250 000 freelances disponibles sur Codeur.com

Recevoir des devis gratuits

Rapide, gratuit et sans obligation

Utilisation des fichiers logs

En isolant les requêtes d’une même adresse IP et d’un même user agent, il est possible de reconstituer l’activité d’un visiteur individuel. Avant l’invention des logiciels d’analyse tiers, ce type de données était la principale source d’information pour analyser les statistiques d’un site.
En plus de l’activité de l’utilisateur, l’analyse des logs fournit un aperçu, au niveau des pages, de l’activité des robots de recherche.
Comme les robots d’exploration n’exécutent généralement pas JavaScript, les pages vues ne sont pas enregistrées avec un logiciel d’analyse tel qu’Analytics. Les fichiers logs fournissent donc des données d’exploration des moteurs de recherche au niveau de l’URL non disponibles ailleurs. Ces données peuvent être utiles pour optimiser l’architecture de votre site pour une exploration aussi efficace que possible.
L’analyse des fichiers journaux est également pratique pour identifier les crawlers de faible valeur mais de haute activité, ce qui vous permet de les bloquer et de réduire la charge du serveur. Une recherche DNS inversée sur les adresses IP est nécessaire pour valider l’authenticité des robots, car le champ de l’agent utilisateur peut être « spoofé ».
Bien que souvent utile, un certain nombre de problèmes entourent l’analyse des fichiers logs.
Analyse GoogleBot

Les défis de l’analyse directe des fichiers logs

  • Taille : Les fichiers logs sont proportionnels à l’activité et peuvent atteindre plusieurs gigaoctets, ce qui les rend lents à télécharger et difficiles à stocker.
  • Accès : Nécessite que l’accès FTP soit configuré sur le serveur, ce qui réduit la sécurité globale du système.
  • Formats : Les formats variables peuvent être difficiles à utiliser et chaque serveur Web utilise un format différent.
  • CDNs : Les services de mise en cache tiers ne fournissent généralement pas de fichiers log.
  • Validation : Parce que l’agent utilisateur peut être « spoofé », les robots des moteurs de recherche doivent être validés par « Reverse DNS Lookup ».

Hack côté serveur pour Google Analytics

Ce petit bidouillage d’Analytics utilise le protocole de mesure pour stocker les informations du fichier log dans un compte Google Analytics, accessible en temps réel.
Une fois implémenté, le hack élimine complètement le besoin de traiter les fichiers logs. Cependant, il vous faut développer et exécuter un script personnalisé assez simple sur votre serveur web afin de  surveiller chaque requête.
La plupart des gens n’ont pas les compétences nécessaires pour développer et installer un script sur le serveur – vous pouvez vous adresser à un professionnel pour obtenir de l’aide.
Si le user agent est Googlebot, le script peut générer une requête HTTP vers le serveur Google Analytics, en stockant les mêmes informations que celles qui seraient normalement envoyées dans le fichier log, en l’encodant dans l’URL de la requête :
http://www.google-analytics.com/collect?uip=127.0.0.1&cs=page+title&tid=UA-xxxxxxxxx&dp=%2Ftest&dt=127.0.0.1+%28Mozilla%2F5.0+ %28Macintosh%3B+Intel+Mac+OS+X+10_9_5%29+AppleWebKit%2F537.36+%28KHTML%2C+ like+Gecko%29+Chrome%2F44.0.2403.157+Safari%2F537.36%29&dh=example.com& cid=316c4790-2eaf-0133-6785-2de9d37163a1&t=pageview&v=1
Les informations seront enregistrées dans Google Analytics, sous la forme d’une page vue.
Plus de détails sur le protocole de mesure sont disponibles sur le site de Google Developers.
Il est préférable de stocker ces informations dans un compte Google Analytics distinct du compte d’activité principal de l’utilisateur.
L’utilisation de Google Analytics pour suivre Googlebot, est la méthode la plus efficace pour qui souhaite analyser le crawl d’un moteur de recherche. Il évite de passer des heures à éplucher les logs quotidiens, hebdomadaires ou mensuels, qui sont des fichiers assez peu accessibles et difficilement compréhensibles.
Si vous souhaitez connaître avec précision le comportement de GoogleBot sur votre site, tout en vous épargnant des maux de tête, alors c’est la solution qu’il vous faut.

À lire aussi : Comment détecter les bots dans le trafic de votre site ?

Et bien sûr, avant de toucher à votre serveur sans trop savoir comment faire, n’hésitez pas à faire appel à un freelance capable d’effectuer ce travail !
 
Article traduit de l’anglais depuis DeepCrawl