Google Spider

La limite de fichiers Googlebot est de 15 Mo, mais de 64 Mo pour les PDF et de 2 Mo pour les autres types de fichiers.

Nous savons depuis longtemps que Google peut explorer les pages Web jusqu'aux 15 premiers Mo, mais Google a maintenant mis à jour une partie de sa documentation d'aide pour préciser qu'il explorera les premiers 64 Mo d'un fichier PDF et les 2 premiers Mo d'autres types de fichiers pris en charge.

Les éléments de 64 Mo et 2 Mo ne sont peut-être pas nouveaux, mais je ne pense pas les avoir abordés auparavant. Je sais que j'ai couvert le fait que Google explorera jusqu'à 2 Mo de votre fichier de désaveu, mais aucune autre mention de 2 Mo ne figure dans ma couverture.

Ce document d'aide a été mis à jour et se lit désormais :

Lors de l'exploration de la recherche Google, Googlebot explore les 2 premiers Mo d'un type de fichier pris en charge et les 64 premiers Mo d'un fichier PDF.. Du point de vue du rendu, chaque ressource référencée dans le HTML (telle que CSS et JavaScript) est récupérée séparément, et chaque récupération de ressource est liée par la même limite de taille de fichier qui s'applique aux autres fichiers (à l'exception des fichiers PDF).

Une fois la limite atteinte, Googlebot arrête la récupération et envoie uniquement la partie déjà téléchargée du fichier pour examen d'indexation. La limite de taille de fichier est appliquée aux données non compressées. D'autres robots d'exploration de Google, par exemple Googlebot Video et Googlebot Image, peuvent avoir des limites différentes.

Ensuite, Google a également mis à jour ce document pour ajouter la limite de 15 Mo, mais ce n'était pas nouveau – il dit maintenant :

Par défaut, les robots d'exploration et de récupération de Google explorent uniquement les 15 premiers Mo d'un fichier. Tout contenu dépassant cette limite est ignoré. Les projets individuels peuvent définir des limites différentes pour leurs robots d'exploration et de récupération, ainsi que pour différents types de fichiers. Par exemple, un robot d'exploration Google peut définir une limite de taille de fichier plus grande pour un PDF que pour un HTML.

Google a expliqué que « tout en transférant les informations sur les limites de taille de fichier par défaut des robots d'exploration et de récupération de Google vers la documentation du robot d'exploration, nous avons également mis à jour la documentation de Googlebot sur ses propres limites de taille de fichier. » « L'emplacement initial des limites de taille de fichier par défaut n'était pas l'endroit le plus logique car il s'applique à tous les robots d'exploration et de récupération de Google, et cette décision nous a permis d'être plus précis sur les limites de Googlebot », a ajouté Google.

Il est utile de connaître les détails plus précis.

Il y a une certaine confusion autour des fichiers de 15 Mo pour les fichiers HTML ou de 2 Mo pour les fichiers HTML et j'ai demandé à John Mueller qui a répondu sur Bluesky en disant : « En bref (je dois l'exécuter), Googlebot est l'un des robots d'exploration de Google, mais pas tous. »

Discussion sur le forum X.