Google sur les bons attributs de robottes Web
Myriam Jessier a demandé à Google quels seraient de bons attributs d'un robot Web. Dans lequel Martin Splitt et Gary Illyes ont donné quelques réponses.
Myriam Jessier a demandé sur Bluesky: « Quels sont les bons attributs? Il faut examiner lors de la sélection d'un robot pour vérifier les choses sur un site pour la recherche SEO et Gen AI? »
Martin Split de Google a répondu avec cette liste d'attributs:
- Prise en charge de HTTP / 2
- déclarer l'identité dans l'agent utilisateur
- Respect Robots.txt
- Backoff si le serveur ralentit
- Suivez les directives de mise en cache *
- Mécanismes de réessayer raisonnables
- Suivez les redirections
- gérer les erreurs gracieusement *
Gary Illyes de Google a transmis la conversation à un nouveau document IETF qui parle des meilleures pratiques de Crawler. Gary a écrit que ce document avait été publié il y a quelques semaines.
Il couvre les meilleures pratiques recommandées, notamment:
- Les Crawlers doivent soutenir et respecter le protocole d'exclusion des robots.
- Les robots doivent être facilement identifiables via leur chaîne d'agent utilisateur.
- Les Crawlers ne doivent pas interférer avec le fonctionnement régulier d'un site.
- Les Crawlers doivent soutenir les directives de mise en cache.
- Les Crawlers doivent exposer les plages IP dont ils ont rampé dans un format standardisé.
- Les Crawlers doivent exposer une page qui explique comment les données rampées sont utilisées et comment elles peuvent être bloquées.
Consultez ce document complet ici – vous pouvez voir que Gary Illyes l'a co-écrit mais pas sous le nom de Google.
Discussion du forum à Bluesky.
Crédit d'image à Lizzi
