Les principaux défis d'exploration de Google en 2025

Gary Illyes et Martin Splitt de Google ont publié un podcast expliquant les principaux défis d'exploration que Google a remarqués au cours de son année 2025 d'exploration. Les principaux défis rencontrés par Google lors de l'exploration comprenaient la navigation à facettes, les paramètres d'action, les paramètres non pertinents, les paramètres de calendrier et d'autres paramètres « bizarres ».

Voici le podcast intégré :

Ces problèmes d'exploration peuvent avoir un impact sur les performances d'un site, car les robots peuvent parcourir le site en boucle et provoquer des problèmes de serveur en raison de la charge que le robot exerce sur les ressources du serveur. Et comme l'a dit Gary, « une fois qu'il découvre un ensemble d'URL, il ne peut pas décider si cet espace URL est bon ou non, à moins d'en explorer une grande partie. »

Voici comment Gary Illyes présente les défis en pourcentage :

La navigation à facettes était de 50 % : cela se produit sur les sites Web (souvent de commerce électronique) qui permettent aux utilisateurs de filtrer et de trier les articles selon diverses dimensions telles que le prix, la catégorie ou le fabricant. Ces combinaisons créent un nombre massif de modèles d'URL uniques. Googlebot peut essayer de tous les explorer pour déterminer leur valeur, ce qui risque de faire planter le serveur ou de rendre le site inutile pour les utilisateurs en raison d'une charge importante.

Les paramètres d'action étaient de 25 % : ce sont des paramètres d'URL qui déclenchent une action spécifique plutôt que de modifier de manière significative le contenu de la page. Les exemples courants incluent des paramètres tels que ?add_to_cart=true ou ?add_to_wishlist=true. L'ajout de ces paramètres double ou triple l'espace de l'URL (par exemple, une URL de page de produit par rapport à la même URL avec un paramètre « ajouter au panier »), ce qui oblige le robot d'exploration à gaspiller des ressources sur un contenu identique. Ces derniers sont souvent injectés par des plugins CMS, comme ceux pour WordPress.

Les paramètres non pertinents étaient de 10 % : comme les paramètres de suivi UTM ou les paramètres que Googlebot ignore généralement ou trouve sans rapport avec l'état du contenu, tels que les identifiants de session et les paramètres UTM. Googlebot a du mal à déterminer si ces chaînes aléatoires modifient le contenu de la page. Il peut explorer de manière agressive pour tester si les paramètres sont significatifs, en particulier s'il s'agit de conventions de dénomination standard.

Les plugins ou widgets WordPress étaient de 5 % : où peut-être ces widgets ajoutent une sorte de suivi des événements ou d'autres choses. Cela représentait un défi de taille pour Google en raison de sa nature open source.

Les autres « trucs étranges » étaient de 2 % : cette catégorie fourre-tout comprend des erreurs techniques rares, telles que le double encodage accidentel d'URL (par exemple, l'encodage en pourcentage d'une URL déjà encodée). Le robot décode l'URL une fois, mais se retrouve avec une chaîne toujours encodée, ce qui entraîne souvent des erreurs ou des pages cassées que le robot tente quand même de traiter.

C'était un podcast intéressant – voici la transcription si vous le souhaitez.

Discussion sur le forum X.

Crédit image Lizzi Sassman