Aws S3 Block Google Broken

AWS S3 a bloqué Googlebot à partir des URL de mes images – Voici ma solution

À la mi-juin, j'ai remarqué que Google n'affichait pas beaucoup de mes images dans Google Search et Discover et certains lecteurs me l'ont également signalé. J'ai donc utilisé l'outil pratique d'inspection d'URL de Google Search Console pour découvrir que les URL S3 que j'utilisais pour héberger mes images empêchaient Googlebot d'explorer. Voici une petite étude de cas de votre part concernant un problème d'indexation/d'exploration que j'ai rencontré pour les URL de mes images.

Ce bug AWS a entraîné une baisse de 83 % des impressions que mes images obtenaient de Google Search et de Google Images. Il a entraîné une baisse de 76 % des clics liés à la recherche d'images sur ce site. Plusieurs semaines plus tard, je suis toujours en baisse d'environ 16 % en termes d'impressions et de 26 % en termes de clics provenant de la recherche d'images, mais c'est une énorme amélioration.

Voici le rapport sur les performances de recherche de la Search Console de Google, qui montre le graphique des impressions et des clics au fil du temps. Vous verrez la baisse vers le 15 juin, puis elle commencera à reprendre vers le 8 juillet. Vous verrez également que mon trafic d'images n'est toujours pas complètement revenu à ses chiffres normaux d'avant le bug AWS, même après deux mois :

Images de performances de la Search Console de Google

Lorsque Googlebot essayait d'accéder aux URL de mes images sur S3, Google recevait une erreur 404 not found. Mais lorsque j'ai visité les URL avec mon ordinateur, elles se sont chargées sans problème. Ce sont les mêmes URL d'images que j'utilise sur ce site depuis plus d'une décennie et pouf, un jour, AWS a décidé de bloquer Googlebot. J'ai contacté Google et AWS à propos du problème et je pense qu'il s'agissait d'un problème assez important. Des tonnes de sites utilisent S3 pour le stockage d'images et de fichiers, donc Googlebot recevait probablement des tonnes d'erreurs 404. Le plus étrange, c'est que je n'ai vu aucune plainte publique à ce sujet.

En tout cas, voici ce que Googlebot a vu lorsqu'il a essayé d'explorer ces URL :

URL de résultat enrichi de Google bloquée

AWS a résolu le problème après plusieurs jours :

URL de résultat enrichie de Google débloquée

Voici à quoi ressemblaient mes images dans l'outil d'inspection d'URL de Google Search Console :

Images cassées de l'inspection d'URL GSC

Cela devrait ressembler à ceci :

Images de travail de l'inspection d'URL GSC

Depuis, j'ai décidé de déplacer mes images vers CloudFront d'AWS – un service qui n'était pas disponible lorsque j'ai créé ce site pour la première fois – c'est pourquoi j'utilisais S3 à l'époque pour les images. Le problème S3 avec Googlebot est toujours résolu et fonctionne bien. Mais je ne reviendrai pas à S3 pour les images.

Je dois remercier Glenn Gabe d'avoir également remarqué que les images disparaissaient très tôt dans Google Discover. Glenn a également rédigé cet article sur la migration des images que j'ai lu avant de passer d'AWS S3 à AWS CloudFront. Je n'ai pas migré mes anciennes images, je les ai laissées, car AWS a résolu le problème. Mais depuis fin juin, toutes mes nouvelles images utilisent CloudFront.

Pour être clair, il ne s'agissait pas d'un bug de Google, mais d'un changement d'AWS qui a conduit AWS S3 à bloquer Googlebot. Le problème est désormais résolu, mais il semble que le mal soit fait… Si les graphiques changent davantage, je mettrai à jour cet article ci-dessous pour documenter les changements. Mais jusqu'à présent, il est resté stable au cours des 5 dernières semaines environ, donc je ne m'attends pas à de grands changements à l'avenir.

Discussion sur le forum chez X.