Google sur les bons attributs de robottes Web

Myriam Jessier a demandé à Google quels seraient de bons attributs d'un robot Web. Dans lequel Martin Splitt et Gary Illyes ont donné quelques réponses.

Myriam Jessier a demandé sur Bluesky: « Quels sont les bons attributs? Il faut examiner lors de la sélection d'un robot pour vérifier les choses sur un site pour la recherche SEO et Gen AI? »

Martin Split de Google a répondu avec cette liste d'attributs:

Prise en charge de HTTP / 2

déclarer l'identité dans l'agent utilisateur

Respect Robots.txt

Backoff si le serveur ralentit

Suivez les directives de mise en cache *

Mécanismes de réessayer raisonnables

Suivez les redirections

gérer les erreurs gracieusement *

Gary Illyes de Google a transmis la conversation à un nouveau document IETF qui parle des meilleures pratiques de Crawler. Gary a écrit que ce document avait été publié il y a quelques semaines.

Il couvre les meilleures pratiques recommandées, notamment:

Les Crawlers doivent soutenir et respecter le protocole d'exclusion des robots.

Les robots doivent être facilement identifiables via leur chaîne d'agent utilisateur.

Les Crawlers ne doivent pas interférer avec le fonctionnement régulier d'un site.

Les Crawlers doivent soutenir les directives de mise en cache.

Les Crawlers doivent exposer les plages IP dont ils ont rampé dans un format standardisé.

Les Crawlers doivent exposer une page qui explique comment les données rampées sont utilisées et comment elles peuvent être bloquées.

Consultez ce document complet ici – vous pouvez voir que Gary Illyes l'a co-écrit mais pas sous le nom de Google.

Discussion du forum à Bluesky.

Crédit d'image à Lizzi