Rapport : fuite de plus de 14 000 fonctionnalités de classement de recherche Google

Rand Fishkin et Mike King ont peut-être publié l'une des plus grandes fuites de données en dehors du ministère de la Justice, concernant la recherche Google et ses fonctionnalités et signaux de classement interne. Le document provenait d'une source anonyme (qui n'est plus anonyme, voir ci-dessous) mais vérifié par Rand Fishkin et contient une tonne de détails sur le fonctionnement de la recherche Google.

Plus important encore, cela semble contredire un certain nombre de déclarations de Google faites au cours des deux dernières décennies par de nombreux employés de Google Search, comme je l'ai évoqué ici par le passé.

Je n'ai pas encore tout parcouru, mais j'ai pensé qu'il était important que vous lisiez tous ceci vous-même, vous pouvez voir les détails dans ces titres :

Rand a écrit : « Beaucoup de leurs affirmations contredisent directement les déclarations publiques faites par les Googleurs au fil des ans, en particulier le refus répété de l'entreprise que les signaux utilisateur centrés sur le clic soient utilisés, le refus que les sous-domaines soient considérés séparément dans les classements, le refus d'un bac à sable pour les sites Web les plus récents. , les refus que l'âge d'un domaine soit collecté ou pris en compte, et plus encore. »

Mike King a écrit : « J'ai examiné les documents de référence de l'API et les ai contextualisés avec d'autres fuites précédentes de Google et le témoignage antitrust du DOJ. Je combine cela avec les recherches approfondies sur les brevets et les livres blancs effectuées pour mon prochain livre, The Science of SEO. Bien qu'il n'y ait aucun détail sur les fonctions de notation de Google dans la documentation que j'ai examinée, il existe une multitude d'informations sur les données stockées pour le contenu, les liens et les interactions des utilisateurs. Il existe également différents degrés de descriptions (allant d'une description décevante à une révélation étonnamment révélatrice). ) des caractéristiques manipulées et stockées. Vous seriez tenté d'appeler cela de manière générale « facteurs de classement », mais ce serait imprécis. »

Aleyda Solis a un bref résumé sur X où elle résume une partie de la fuite :

Il y a 14 000 fonctionnalités de classement et plus encore dans la documentation

Google a une fonctionnalité qu'ils calculent appelée « siteAuthority »

Navboost dispose d'un module spécifique entièrement axé sur les signaux de clic représentant les utilisateurs en tant qu'électeurs et leurs clics sont stockés en tant que votes.

Google stocke quel résultat a généré le clic le plus long au cours de la session

Google dispose d'un attribut appelé hostAge qui est utilisé spécifiquement « pour mettre en sandbox les nouveaux spams pendant la durée de diffusion ».

L'un des modules liés aux scores de qualité des pages propose une mesure des vues au niveau du site depuis Chrome.

Je n'ai pas encore eu le temps de tout parcourir, je le ferai dans les prochains jours.

Je n'ai encore vu aucun Googleur commenter publiquement ce sujet – je sais que c'est nouveau et je ne sais pas si nous verrons un commentaire de Google à ce sujet.

Cela me rappelle un peu la fuite du classement de recherche Yandex.

Voici quelques articles sur les réseaux sociaux à ce sujet – encore une fois, cela n'est sorti que depuis quelques heures et personne d'autre que Rand et Mike n'a eu le temps réel de traiter cela en détail.

Un immense merci à @iPullRankque j'ai contacté vendredi après avoir vu la fuite, et qui m'a aidé à analyser et à déchiffrer une grande partie de ces premières découvertes : https://t.co/JGYdGydKlC

– Rand Fishkin (suivez @radderuiter sur les discussions) (@randfish) 28 mai 2024

Ok, commençons cette fête !

Il y a quelques semaines, j'ai dit que je publierais la chose la plus importante que j'aie jamais écrite. J'ai eu tort.

La documentation relative à l'algorithme de recherche Google a été divulguée et j'ai passé le week-end à la démonter.https://t.co/v71B16Ggov

✌🏾

– Roi du micro (@iPullRank) 28 mai 2024

🚨 La documentation d'ingénierie interne de Google Search a été divulguée et analysée par @iPullRank 👀 Google a refusé l'utilisation de beaucoup d'entre eux👇

* Il existe des fonctionnalités de classement 14K et plus dans la documentation
* Google dispose d'une fonctionnalité qu'ils calculent appelée « siteAuthority ».
* Navboost a… pic.twitter.com/dlpCIQdpDm

-Aleyda Solis 🕊️ (@aleyda) 28 mai 2024

En attendant qu'il soit (éventuellement) retiré par les avocats de Google, voici un lien direct vers la documentation divulguée sur l'API de classement Google.

« google_api_content_warehouse v0.4.0 »

Enregistrez ces pages ! https://t.co/8RgmoF69z9 pic.twitter.com/9dXobbr2U1

– Cyrus SEO (@CyrusShepard) 28 mai 2024

Article de blog extrêmement intéressant de @iPullRank.
Un autre des nombreux écrits pour lesquels nous économisons est l'utilité ⬇️ https://t.co/VZH8EARV1G

–Gianluca Fiorelli (@gfiorelli1) 28 mai 2024

Apparemment, quelqu'un de la recherche Google a divulgué « accidentellement » un document d'ingénierie qui révèle une tonne de secrets sur le fonctionnement du moteur de recherche, notamment le fait qu'il dispose d'un indicateur « Golden Document » qui donne plus de poids à un document « étiqueté humain », ce qui pourrait veux dire certains… pic.twitter.com/zeG79f161B

– Joe Youngblood (@YoungbloodJoe) 28 mai 2024

Si vous voulez en savoir plus avec moi, je continuerai à mettre à jour ce Google Doc pendant les 30 prochaines minutes avec tout ce qui est intéressant avant de reprendre une vie normale.https://t.co/1iQ40nknZ0

–Glen Allsopp 👾 (@ViperChill) 28 mai 2024

#Google Recherche #Fuir Révèle plus de 14 000 facteurs de classement… Y compris « Dégradation de Bébé Panda » ?!?

On dirait que Panda a été rétrogradé… mais à un BÉBÉ PANDA ? Je suppose que Google fait preuve de modération envers les sites de mauvaise qualité ces jours-ci. pic.twitter.com/Ob2bndHnzH

– Shay Harel (@RangerShay) 28 mai 2024

Je ne pense pas que des années d'expérience personnelle aient permis de voir l'algorithme de Google réagir complètement à l'opposé de ce que toutes les têtes parlantes disaient être un préjugé préconçu. Ils mentent depuis le premier jour, et toute personne ayant même une expérience de base en référencement qui était là…

-Greg Boser (@GregBoser) 28 mai 2024

Vous trouvez le commit ici : https://t.co/4CqyJZXqZy

— Fili 🇪🇺 🇳🇱 (@filiwiese) 28 mai 2024

J'ai hâte de vraiment approfondir ce sujet.

Mise à jour : j'ai brièvement parcouru ces deux histoires et creusé un peu dans la documentation réelle de l'API et honnêtement, sur la base de tout ce que j'ai suivi au cours des 20 dernières années autour de la recherche Google, celles-ci semblent vraiment légitimes. Certains des détails de ces documents que j'ai entendus à la fois officiellement et officieusement en tant que véritables fonctionnalités de classement, certains ne sont plus utilisés d'après ce que j'ai compris et d'autres je ne sais pas comment ils sont utilisés (c'est-à-dire directement pour le classement ou après la validation du classement). ). Cela vaut la peine de parcourir ces documents en détail, à mon avis.

Mise à jour 2 : La source de la fuite s'est prononcée – Erfan Azimi m'a envoyé cette vidéo par e-mail :

Discussion sur le forum X.