Gamme de robots Google

Google documente ses trois types de robots d’exploration Web

Google a mis à jour son Document d’aide sur la vérification de Googlebot et d’autres robots d’exploration Google pour ajouter une nouvelle section décrivant les trois catégories ou types de robots dont ils disposent. Ils ont leur robot d’exploration Googlebot, des robots d’exploration de cas particuliers et des robots d’exploration déclenchés par l’utilisateur.

Je crois que cela a été fait après que nous, y compris moi, étions un peu obsédés par le nouveau crawler GoogleOther. Puis Gary Illyes de Google a ajouté : « S’il vous plaît, n’y pensez pas trop, c’est vraiment ennuyeux. » Mais je fais ce que je fais et j’y ai trop réfléchi. Alors Gary a fait ce qu’il fait et a eu un document d’aide pour expliquer cela plus en détail.

Le document d’aide indique : « Les robots d’exploration de Google se répartissent en trois catégories ».

(1) Googlebot : Crawler principal des produits de recherche de Google, il respecte toujours les règles du robots.txt. Son masque DNS inversé est « crawl-***-***-***-***.googlebot.com ou geo-crawl-***-***-***-***.geo. googlebot.com » et la liste des plages d’adresses IP se trouvent dans ce googlebot.json déposer.

(2) Crawlers de cas particuliers : Crawlers qui exécutent des fonctions spécifiques (comme AdsBot), qui peuvent ou non respecter les règles du robots.txt. Son masque DNS inversé est « rate-limited-proxy-***-***-***-***.google.com » et la liste des plages d’adresses IP se trouve dans ce special-crawlers.json déposer.

(3) Récupérations déclenchées par l’utilisateur : outils et fonctions du produit où l’utilisateur final déclenche une récupération. Par exemple, Google Site Verifier agit à la demande d’un utilisateur. Étant donné que la récupération a été demandée par un utilisateur, ces récupérateurs ignorent les règles du fichier robots.txt. Son masque DNS inversé est « ***-***-***-***.gae.googleusercontent.com » et la liste des plages IP se trouve dans ce user-triggered-fetchers.json déposer.

Voici une capture d’écran de la nouvelle section de ce document d’aide :

cliquez pour la taille réelle

Aussi, avec cela, Google a restructuré l’ordre des Googlebots sur le Page des robots d’exploration Google:

Ancienne nouvelle commande structurée Googlebot

Forum de discussion sur Twitter.