Pages Google Robot Aspirateur

Google : Si vous ne pouvez pas bloquer les résultats de recherche internes Aucun résultat trouvé, bloquez tous les résultats de recherche

John Mueller de Google a lancé une diatribe sur Reddit sur le thème de l’exploration et de l’indexation de vos pages de résultats de recherche internes. Comme vous le savez, en général, Google ne souhaite pas indexer les résultats de recherche, mais John a déclaré que cela est particulièrement vrai pour les pages de résultats de recherche qui n’ont aucun résultat trouvé.

En bref, a déclaré John, « si vous ne pouvez pas sélectionner les pages de résultats de recherche qui doivent être indexables, vous devez toutes les empêcher d’être indexables – utilisez robots.txt disallow ou noindex robots meta tag. »

La diatribe est plutôt amusante à lire, alors la voici:

Malheureusement, de nombreux CMS, plates-formes d’hébergement, plates-formes de commerce électronique, etc. ne robotisent toujours pas les pages de résultats de recherche par défaut. Nous donnons ces conseils depuis probablement plus d’une décennie. Surtout si une page de résultats de recherche ne renvoie aucun résultat, il n’y a aucune raison pour qu’elle soit indexable. Et même pour les autres pages de résultats de recherche, il est recommandé de les bloquer toutes ou de n’autoriser l’indexation qu’à un ensemble sélectionné manuellement (par exemple, les requêtes de type de produit connu, où les résultats ressemblent davantage à des pages de catégorie). Si vous ne pouvez pas limiter les pages de résultats de recherche indexables, je vous recommande fortement de ne pas indexer ou de robotiser *toutes* les pages de recherche. Il arrive toujours que nous voyions des sites spammer les résultats de recherche avec des pages de résultats de recherche ouvertes.

En 2007, Google a demandé aux webmasters d’empêcher l’indexation des résultats de recherche internes. La directive d’origine se lit comme suit : « Utilisez robots.txt pour empêcher l’exploration des pages de résultats de recherche ou d’autres pages générées automatiquement qui n’ajoutent pas beaucoup de valeur pour les utilisateurs provenant de moteurs de recherche ». Maintenant, il lit « Utilisez le fichier robots.txt sur votre serveur Web pour gérer votre budget d’exploration en empêchant l’exploration d’espaces infinis tels que les pages de résultats de recherche. »

Puis, dix ans plus tard, John Mueller de Google a expliqué pourquoi Google ne veut pas que vos pages de résultats de recherche figurent dans son index. Il a dit, « ils créent des espaces infinis (crawl), ce sont souvent des pages de mauvaise qualité, qui conduisent souvent à des résultats de recherche vides/soft-404 ». Plus tard, il a expliqué qu’il s’agissait d’un problème d’édulcoration et que ces types de pages pouvaient entraîner des réponses soft 404 dans la Search Console.

Forum de discussion sur Reddit.