Google Cache

La documentation Google Crawler ajoute la mise en cache HTTP

Google a mis à jour sa documentation d'aide sur les robots d'exploration pour ajouter une nouvelle section relative à la mise en cache HTTP, qui explique comment les robots d'exploration de Google gèrent les en-têtes de contrôle du cache. Google a également publié un article de blog nous suppliant de laisser Google mettre nos pages en cache.

Mendier est peut-être trop, mais Gary Illyes a écrit : « Permettez-nous de mettre en cache, s'il vous plaît » comme première ligne du billet de blog. Il a ensuite déclaré que nous permettons à Google de mettre en cache notre contenu aujourd'hui plutôt qu'il y a 10 ans. Gary a écrit : « le nombre de requêtes pouvant être renvoyées à partir des caches locaux a diminué : il y a 10 ans, environ 0,026 % du total des requêtes pouvaient être mises en cache, ce qui n'est déjà pas si impressionnant ; aujourd'hui, ce chiffre est de 0,017 %. »

Google a ajouté une section de mise en cache HTTP au document d'aide pour expliquer comment Google gère les en-têtes de contrôle du cache. L'infrastructure d'exploration de Google prend en charge la mise en cache HTTP heuristique telle que définie par la norme de mise en cache HTTP, en particulier via l'en-tête de requête ETag et If-None-Match, ainsi que l'en-tête de requête Last-Modified et If-Modified-Since.

Si les champs d'en-tête de réponse ETag et Last-Modified sont présents dans la réponse HTTP, les robots d'exploration de Google utilisent la valeur ETag comme l'exige la norme HTTP. Pour les robots d'exploration de Google en particulier, nous vous recommandons d'utiliser ETag au lieu de l'en-tête Last-Modified pour indiquer la préférence de mise en cache, car ETag n'a pas de problèmes de formatage de date. Les autres directives de mise en cache HTTP ne sont pas prises en charge, a ajouté Google.

Je dois ajouter que Google et Bing prennent tous deux en charge ETag au moins depuis 2018.

Google a ajouté beaucoup plus de détails à cette section, mais a également élargi cette section de la page :

Les robots d'exploration et de récupération de Google prennent en charge HTTP/1.1 et HTTP/2. Les robots d'exploration utiliseront la version du protocole qui offre les meilleures performances d'analyse et pourront changer de protocole entre les sessions d'analyse en fonction des statistiques d'analyse précédentes. La version du protocole par défaut utilisée par les robots d'exploration de Google est HTTP/1.1 ; l'exploration via HTTP/2 peut économiser des ressources informatiques (par exemple, CPU, RAM) pour votre site et Googlebot, mais sinon, il n'y a aucun avantage spécifique au produit Google pour le site (par exemple, pas d'amélioration du classement dans la recherche Google). Pour désactiver l'exploration via HTTP/2, demandez au serveur qui héberge votre site de répondre avec un code d'état HTTP 421 lorsque Google tente d'accéder à votre site via HTTP/2. Si cela n'est pas réalisable, vous pouvez envoyer un message à l'équipe Crawling (cependant cette solution est temporaire). L'infrastructure d'exploration de Google prend également en charge l'exploration via FTP (tel que défini par la RFC959 et ses mises à jour) et FTPS (tel que défini par la RFC4217 et ses mises à jour), mais l'exploration via ces protocoles est rare.

Discussion sur le forum X.