Googlebot Lizzi Image

Google sur les bons attributs de robottes Web

Myriam Jessier a demandé à Google quels seraient de bons attributs d'un robot Web. Dans lequel Martin Splitt et Gary Illyes ont donné quelques réponses.

Myriam Jessier a demandé sur Bluesky: « Quels sont les bons attributs? Il faut examiner lors de la sélection d'un robot pour vérifier les choses sur un site pour la recherche SEO et Gen AI? »

Martin Split de Google a répondu avec cette liste d'attributs:

  • Prise en charge de HTTP / 2
  • déclarer l'identité dans l'agent utilisateur
  • Respect Robots.txt
  • Backoff si le serveur ralentit
  • Suivez les directives de mise en cache *
  • Mécanismes de réessayer raisonnables
  • Suivez les redirections
  • gérer les erreurs gracieusement *

Gary Illyes de Google a transmis la conversation à un nouveau document IETF qui parle des meilleures pratiques de Crawler. Gary a écrit que ce document avait été publié il y a quelques semaines.

Il couvre les meilleures pratiques recommandées, notamment:

  • Les Crawlers doivent soutenir et respecter le protocole d'exclusion des robots.
  • Les robots doivent être facilement identifiables via leur chaîne d'agent utilisateur.
  • Les Crawlers ne doivent pas interférer avec le fonctionnement régulier d'un site.
  • Les Crawlers doivent soutenir les directives de mise en cache.
  • Les Crawlers doivent exposer les plages IP dont ils ont rampé dans un format standardisé.
  • Les Crawlers doivent exposer une page qui explique comment les données rampées sont utilisées et comment elles peuvent être bloquées.

Consultez ce document complet ici – vous pouvez voir que Gary Illyes l'a co-écrit mais pas sous le nom de Google.

Discussion du forum à Bluesky.

Crédit d'image à Lizzi