Techniquement, Google ne suit pas les liens, il les extrait, les collecte et les vérifie plus tard

Gary Illyes, de Google, a précisé dans le podcast Search Off The Record que Google ne suit techniquement pas les liens. Au lieu de cela, Google va extraire les liens, les collecter dans une base de données, puis les vérifier plus tard. Bien sûr, la plupart d'entre vous le savent déjà et cela n'a pas vraiment d'importance pour le référencement de connaître la différence, mais bon.

Gary Illyes de Google a déclaré à 25:26 dans ce podcast :

Eh bien, oui, c'est ma bête noire. Sur une combinaison [Google Search Central Site]nous continuons à dire que Googlebot suit les liens, mais non, il ne suit pas les liens. Il collecte des liens, puis il revient à ces liens. Ce n'est pas comme suivre correctement les liens. L'image que nous dressons est que Googlebot saute de…

Gary a ensuite publié un article sur ce sujet sur LinkedIn, en expliquant davantage. « Vous avez probablement déjà entendu dire que Googlebot « suit » les liens. Ce n’est pas le cas. Mais c’est une manière assez illustrative de décrire ce que fait Googlebot », a-t-il déclaré.

Il a écrit :

Un récent épisode de Search Off the Record (https://lnkd.in/eG566yve) a provoqué un certain émoi car nous avons apparemment « divulgué » que Googlebot ne se contente pas de « suivre » les liens qu'il trouve dans une page qu'il vient de télécharger. Si vous avez déjà passé du temps à analyser les journaux d'accès de votre serveur au cours des 15 dernières années, vous saviez déjà que ce n'est pas le cas. Il y a plus que de simplement faire une demande aveuglément aux URL trouvées dans un élément ; il y a la déduplication entre les variantes de protocole, il y a la priorisation des URL, il y a le café ou son absence.

Alors pourquoi « suivre » ? Même si je n’aime pas ça, c’est une façon très simple d’expliquer ce que fait réellement Googlebot. Il est utile d’utiliser des analogies simples (des comparaisons ?), mais il est également possible d’aller chercher des explications plus approfondies. Vous choisissez celle qui, selon vous, fonctionnera pour le public auquel vous vous adressez à ce moment-là.

Voici l'intégration pour l'écouter :

Gary a également ajouté dans un commentaire au fond de LinkedIn ici dans une autre langue : « Au fait, nous avons un autre système d'extraction de liens dans le processus d'indexation (pour les liens fantaisistes/stupides) ».

Il y a aussi cette question de Kristine Schachinger qui a demandé : « Je suis confuse. Je sais que Google peut déclencher des sites dynamiques pour « créer des pages » à partir de liens internes, ce qui, je suppose, ne se produit que lors de l'exploration, alors comment cela se produit-il dans ce scénario ? » Gary a répondu en disant : « Je ne pense pas qu'il y ait de relation entre les deux choses. Les robots voient un lien et finissent par revenir à ce lien (et s'ils ne le font pas, du moins dans le cas de Googlebot, vous vous retrouvez avec « Découvert, non exploré », ou tout ce que la Search Console indique). S'ils reviennent en arrière, la nouvelle page est créée dynamiquement. Ce que nous faisions avec wget pour télécharger récursivement des éléments en temps réel n'existe pas avec les robots modernes. »

Google procède donc à l’extraction de liens de plusieurs manières et ne suit pas immédiatement les liens qu’il extrait.

Forum de discussion sur LinkedIn.