Google sur la façon dont Googlebot Crawling a changé au fil des ans
Gary Illyes de Google a décrit comment les robots de recherche de moteurs ont changé au fil des ans. Cela est apparu dans la dernière recherche du podcast Record avec Martin Splitt et Gary Illyes de Google.
Il a également déclaré que bien que Googlebot ne prenne pas encore en charge HTTP3, ils finiront par être plus efficaces.
Il a changé de plusieurs manières, notamment:
(1) Les en-têtes pré et post HTTP étaient un changement
(2) le protocole Robots.Txt (bien que ce soit super super vieux)
(3) traiter avec des spammeurs et des escrocs
(4) Comment l'IA consomme plus de choses maintenant (un peu).
Cela est apparu à la marque 23:23 dans le podcast, voici l'intégration:
https://www.youtube.com/watch?v=iggugonz1e
Martin Splitt a demandé à Gary: « Voyez-vous un changement dans la façon dont les Crawlers fonctionnent ou se comportent au fil des ans? »
Gary a répondu:
Se comporter, oui. Comment ils rampent, il n'y a probablement pas grand-chose à changer. Eh bien, je suppose que les jours que nous avions, quoi, HTTP / 1.1, ou probablement ils ne rampaient pas sur /0.9 parce qu'aucun en-têtes et tout ça, comme c'est probablement difficile. Mais, de toute façon, de nos jours, vous avez H2 / H3. Je veux dire, nous ne soutenons pas H3 pour le moment, mais finalement, pourquoi ne le ferons-nous pas? Et cela permet de ramper beaucoup plus efficacement parce que vous pouvez diffuser des trucs – diffusion, ce qui signifie que vous ouvrez une connexion, puis vous faites plusieurs choses sur cette connexion au lieu d'ouvrir un tas de connexions. Donc, comme la façon dont les clients HTTP travaillent sous le capot, cela change, mais techniquement, ramper ne change pas.
Il a ensuite ajouté:
Et puis comment différentes entreprises définissent des politiques pour leurs robots, qui diffèrent bien sûr considérablement. Si vous êtes impliqué dans des discussions à l'IETF, par exemple, le groupe de travail sur Internet Engineering, concernant le comportement des robots, alors vous pouvez voir que certains éditeurs se plaignent que Crawler X ou Crawler B ou Crawler Y faisaient quelque chose qu'ils auraient considéré comme agréable. Les politiques peuvent différer entre les opérateurs de chenilles, mais en général, je pense que les robots bien élevés, ils essaieraient tous d'honorer les robots.txt, ou le protocole d'exclusion des robots, en général, et accordaient une certaine attention aux signaux que les sites donnent à propos de leur propre chargement ou de leurs serveurs à charger et à reculer quand ils le peuvent. Et puis vous avez également, comment sont-ils appelés, les robots adversaires comme les scanners de logiciels malveillants et les scanners de confidentialité et ainsi de suite. Et puis vous auriez probablement besoin d'un autre type de politique pour eux parce qu'ils font quelque chose qu'ils veulent cacher. Pas pour une raison malveillante, mais parce que les distributeurs de logiciels malveillants essaieraient probablement de cacher leurs logiciels malveillants s'ils savaient qu'un scanner de logiciels malveillants arrive, disons. J'essayais de trouver un autre exemple, mais je ne peux pas. De toute façon. Ouais. Qu'avez-vous d'autre?
Il a ajouté plus tard:
Ouais. Je veux dire, c'est une chose que nous avons fait l'année dernière, non? Par exemple, nous essayions de réduire notre empreinte sur Internet. Bien sûr, cela n'aide pas que de nouveaux produits puissent le lancement ou de nouveaux produits d'IA qui s'accélèrent pour diverses raisons. Et puis, en gros, vous avez économisé sept octets de chaque demande que vous faites. Et puis ce nouveau produit ajoutera huit. Internet peut gérer la charge de Crawlers. Je crois fermement que – ce sera controversé et je vais me faire crier sur Internet pour cela – mais ce n'est pas rampant qui mange les ressources; Il est indexé et potentiellement servant ou ce que vous faites avec les données lorsque vous traitez ces données que vous récupérez, c'est ce qui est coûteux et à forte intensité de ressources. Ouais, je vais m'arrêter là avant d'avoir plus de problèmes.
Je veux dire, pas grand-chose a changé, mais écouter ce n'était pas trop mal (vous regarder Gary).
Discussion du forum sur LinkedIn.
Crédit d'image à Lizzi