Spam dans la ligne de mire de Moz avec Domain Authority 2.0

Le Web a toujours lutté contre le spam. Chaque lecteur ici a probablement été confronté à l’assaut du spam par e-mail, tandis que d’autres ont également été confrontés au fléau du spam de liens.

À première vue, c’est un léger ennui, qui fait partie de la vie quotidienne en ligne. Mais au fil de mes années chez Moz et de mes années précédentes en tant que consultant, j’ai compris que les motivations sous-jacentes du spam sont économique – et que l’économie est en plein essor.

Lorsque Google a finalement retiré le PageRank de la barre d’outils de Chrome en 2016, un vide a été laissé à sa place pour les webmasters qui contournent les directives de qualité de Google.

PageRank était l’échelle sur laquelle presque chaque acquisition de lien était jugée. Avec la disparition du PageRank, les webmasters ont afflué vers les prochaines mesures gratuites : l’autorité de domaine (DA) et l’autorité de page (PA) de Moz. Aujourd’hui, il est courant de voir les liens et les domaines tarifés en fonction de leur score DA ou PA.

Malheureusement, alors que le marché est passé du PageRank à l’autorité de domaine, les tentatives de manipulation de la métrique avec le spam ont fait de même. Certes, ces tentatives ont été largement efficaces. L’autorité de domaine d’origine a été créée à l’aide d’un processus simple :

  • Télécharger un grand nombre de résultats de recherche pour un ensemble aléatoire de mots-clés
  • Utilisez un algorithme d’apprentissage automatique pour prédire ces résultats de recherche avec des métriques de lien
  • Placez tous les sites sur une échelle de 0 à 100 en utilisant la sortie de ce modèle appris par machine

Cela semblait être le moyen évident d’accomplir la tâche de construire une métrique qui prédit les classements, mais il y avait une faille, ou du moins une limitation à cette méthodologie.

Imaginez que vous vouliez comprendre ce qu’il faut pour devenir une All Star de la NBA. Vous prenez les statistiques de tous les joueurs cette année-là et la liste de ceux qui ont fait les All Stars, puis vous utilisez un modèle d’apprentissage automatique pour prédire quels joueurs feront les All Stars à l’avenir.

Votre modèle apprendra très vite que marquer des points et obtenir des passes décisives et des rebonds améliorera vos chances de faire les All Stars.

Cependant, ce qu’il ne vous dirait pas, c’est que la hauteur est un élément majeur. Pourquoi? Car tout le monde dans l’ensemble d’entraînement est déjà grand. Mais bien sûr, personne de moins de 5 pieds ne deviendra un NBA All Star.

Alors, que se passerait-il si nous appliquions l’algorithme d’apprentissage automatique à votre personne moyenne dans la rue, plutôt qu’à un joueur professionnel ?

L’algorithme manquerait ce prédicteur flagrant et fonctionnerait beaucoup plus mal qu’il ne l’aurait fait s’il avait su que la hauteur compte.

De même, alors que l’autorité de domaine faisait du bon travail en prédisant les sites qui se classeraient parmi les sites déjà classés, il était perdu parmi les sites qui avaient des profils de liens bizarres non ciblés vers les classements. Cela a laissé l’autorité de domaine vulnérable à la manipulation.

Les membres des équipes de science des données et d’ingénierie de Moz se sont réunis pour créer un nouvel ensemble de formation et de nouvelles variables pour résoudre ce problème.

La première étape consistait à modifier l’ensemble de formation afin qu’il inclue les sites qui ne se classent pour aucun terme à la dernière place pour un certain pourcentage de pages de résultats des moteurs de recherche (SERP). Cela permettrait au réseau de neurones d’apprendre non seulement à comparer les sites déjà classés, mais également à dévaluer correctement les sites qui ne sont classés pour aucun mot clé.

La deuxième étape consistait à améliorer considérablement les variables à partir desquelles le réseau neuronal pouvait apprendre.

Historiquement, nous utilisions en grande partie des métriques brutes et singulières, comme le nombre de domaines de liaison racine vers votre site, pour alimenter le modèle d’autorité de domaine. Cependant, avec la sortie de notre nouvel index de liens massif, Link Explorer, nous avons pu importer des variables beaucoup plus complexes, comme les distributions de liens dans différentes catégories.

Permettez-moi de donner un exemple ou deux. Le nombre de liens provenant de sites Web qui reçoivent plus de 100 visites par mois peut être une mesure utile pour créer une autorité de domaine.

Cependant, il s’agit d’une métrique singulière sans contexte ni norme à laquelle la comparer. Et si, à la place, nous cartographions tous les liens vers un domaine en fonction des catégories du nombre de visiteurs que le domaine de liaison reçoit ? Il s’avère qu’il s’agit d’un excellent signal pour détecter certains types de spam de liens, en particulier les réseaux de liens géants.

Comme vous pouvez le constater, le site de spam obtient la plupart de ses liens à partir de sites qui ne sont visités par personne. Au contraire, le site modèle reçoit une proportion beaucoup plus saine de ses liens provenant de sites bien fréquentés.

Bien sûr, ce n’est pas la seule distribution disponible pour le modèle de réseau neuronal, car nous avons envisagé d’autres distributions, comme le Spam Score propriétaire de Moz.

Alors, comment notre nouveau modèle et nos nouvelles variables ont-ils réussi à dévaluer le spam de lien par rapport à l’AD précédent ?

Le graphique ci-dessus montre comment l’autorité de domaine a été affectée, en moyenne, lors du passage de DA 1.0 à DA 2.0. Les deux premières colonnes du graphique à barres concernent des domaines et des clients aléatoires. Nous avons constaté une baisse moyenne de 6 % pour les domaines aléatoires, ce qui représente un recentrage de la métrique. Les résultats pour la manipulation de liens connus, cependant, étaient assez différents.

  • Les sites qui achètent des liens ont connu une baisse moyenne de plus de 15 %
  • Les domaines d’enchères ont chuté de 61 % à 98 %, selon la qualité
  • Les spammeurs de commentaires ont perdu un tiers de leur autorité de domaine
  • Les vendeurs de liens ont perdu plus de la moitié de leur autorité de domaine
  • Les réseaux de liens et de domaines ont perdu respectivement plus de 70 et 90 % de leur autorité de domaine

En bref, l’économie de liens et de domaines construite sur l’autorité de domaine a été complètement abattue, décimant les inventaires de sites gonflés de liens.

La nouvelle autorité de domaine fait efficacement sa part pour nettoyer le Web du type de spam qui cause de réels dommages. Plus fiable que jamais, il est également plus efficace pour prédire les classements et éliminer les manipulations manifestes.

Nous prévoyons un avenir radieux pour l’autorité de domaine et nous sommes impatients de déployer Page Authority 2.0 à l’avenir également.