Google Logo Data Leak

Rapport : fuite de plus de 14 000 fonctionnalités de classement de recherche Google

Rand Fishkin et Mike King ont peut-être publié l'une des plus grandes fuites de données en dehors du ministère de la Justice, concernant la recherche Google et ses fonctionnalités et signaux de classement interne. Le document provenait d'une source anonyme (qui n'est plus anonyme, voir ci-dessous) mais vérifié par Rand Fishkin et contient une tonne de détails sur le fonctionnement de la recherche Google.

Plus important encore, cela semble contredire un certain nombre de déclarations de Google faites au cours des deux dernières décennies par de nombreux employés de Google Search, comme je l'ai évoqué ici par le passé.

Je n'ai pas encore tout parcouru, mais j'ai pensé qu'il était important que vous lisiez tous ceci vous-même, vous pouvez voir les détails dans ces titres :

Rand a écrit : « Beaucoup de leurs affirmations contredisent directement les déclarations publiques faites par les Googleurs au fil des ans, en particulier le refus répété de l'entreprise que les signaux utilisateur centrés sur le clic soient utilisés, le refus que les sous-domaines soient considérés séparément dans les classements, le refus d'un bac à sable pour les sites Web les plus récents. , les refus que l'âge d'un domaine soit collecté ou pris en compte, et plus encore. »

Mike King a écrit : « J'ai examiné les documents de référence de l'API et les ai contextualisés avec d'autres fuites précédentes de Google et le témoignage antitrust du DOJ. Je combine cela avec les recherches approfondies sur les brevets et les livres blancs effectuées pour mon prochain livre, The Science of SEO. Bien qu'il n'y ait aucun détail sur les fonctions de notation de Google dans la documentation que j'ai examinée, il existe une multitude d'informations sur les données stockées pour le contenu, les liens et les interactions des utilisateurs. Il existe également différents degrés de descriptions (allant d'une description décevante à une révélation étonnamment révélatrice). ) des caractéristiques manipulées et stockées. Vous seriez tenté d'appeler cela de manière générale « facteurs de classement », mais ce serait imprécis. »

Aleyda Solis a un bref résumé sur X où elle résume une partie de la fuite :

  • Il y a 14 000 fonctionnalités de classement et plus encore dans la documentation
  • Google a une fonctionnalité qu'ils calculent appelée « siteAuthority »
  • Navboost dispose d'un module spécifique entièrement axé sur les signaux de clic représentant les utilisateurs en tant qu'électeurs et leurs clics sont stockés en tant que votes.
  • Google stocke quel résultat a généré le clic le plus long au cours de la session
  • Google dispose d'un attribut appelé hostAge qui est utilisé spécifiquement « pour mettre en sandbox les nouveaux spams pendant la durée de diffusion ».
  • L'un des modules liés aux scores de qualité des pages propose une mesure des vues au niveau du site depuis Chrome.

Je n'ai pas encore eu le temps de tout parcourir, je le ferai dans les prochains jours.

Je n'ai encore vu aucun Googleur commenter publiquement ce sujet – je sais que c'est nouveau et je ne sais pas si nous verrons un commentaire de Google à ce sujet.

Cela me rappelle un peu la fuite du classement de recherche Yandex.

Voici quelques articles sur les réseaux sociaux à ce sujet – encore une fois, cela n'est sorti que depuis quelques heures et personne d'autre que Rand et Mike n'a eu le temps réel de traiter cela en détail.

J'ai hâte de vraiment approfondir ce sujet.

Mise à jour : j'ai brièvement parcouru ces deux histoires et creusé un peu dans la documentation réelle de l'API et honnêtement, sur la base de tout ce que j'ai suivi au cours des 20 dernières années autour de la recherche Google, celles-ci semblent vraiment légitimes. Certains des détails de ces documents que j'ai entendus à la fois officiellement et officieusement en tant que véritables fonctionnalités de classement, certains ne sont plus utilisés d'après ce que j'ai compris et d'autres je ne sais pas comment ils sont utilisés (c'est-à-dire directement pour le classement ou après la validation du classement). ). Cela vaut la peine de parcourir ces documents en détail, à mon avis.

Mise à jour 2 : La source de la fuite s'est prononcée – Erfan Azimi m'a envoyé cette vidéo par e-mail :

Discussion sur le forum X.