Google Logo Buried In Rubble

Le site de John Mueller supprimé de la recherche Google

Tout le monde dans la communauté SEO parle du fait que le site Web de John Mueller n'est plus répertorié dans les résultats de recherche Google. Il semble qu'il ait été désindexé et complètement supprimé de Google. La question est pourquoi ? John Mueller est l'un des porte-parole de la recherche Google les plus reconnus sur Internet, donc pour son site, johnmu.com, avec une tonne de sujets geek, n'apparaisse pas dans les résultats de recherche Google – les référenceurs se demandent…

Si vous exécutez une commande de site pour [site:johnmu.com] – aucun résultat n'apparaît :

Site Johnmu Google désindexé

Bien sûr, la première chose que chaque référenceur fait est d'inspecter le fichier johnmu.com/robots.txt – alors amusez-vous à parcourir cela. Ensuite, vous recherchez d’autres balises méta qui pourraient empêcher son indexation.

Nous n'avons pas accès à la console de recherche Google de John pour voir s'il y a eu une action manuelle, comme tant d'autres sites reçus la semaine dernière, mais je doute que son site ait été touché par une seule…

J'ai repéré ça via :

Voici comment John réagit à la réaction de cette information jusqu’à présent :

Voici Fabrice Canel de l'équipe Bing – comme c'est drôle :

À votre avis, que se passe-t-il ? Il semble que John s'amuse avec celui-ci…

Sois gentil s'il-te-plaît.

Discussion sur le forum à X.

Mise à jour : John a publié plus de détails sur LinkedIn, il a écrit :

Le fichier robots.txt de mon site faisait le tour. C'est gênant : un fichier robots.txt n'est-il pas un peu comme les sous-vêtements d'un site Web ? J'aurais déposé un dossier vierge si j'avais su.

Mais qu'en est-il du dossier ? Et pourquoi votre site est-il désindexé ?

Quelqu'un a suggéré que cela pourrait être dû aux liens vers Google+. C'est possible. Et revenons au robots.txt… ça va – je veux dire, c'est comme je le veux, et les robots peuvent le gérer. Ou bien, ils devraient pouvoir le faire s’ils suivent la RFC9309.

Le commentaire en haut – c'est bien sûr pour vous, et un moyen de détecter une erreur difficile à repérer : une double nomenclature UTF. Certains types de fichiers texte ont un caractère de départ spécial. En avoir un, c'est bien, vous n'en avez généralement pas besoin. La plupart des systèmes (navigateurs, éditeurs) le cachent. Pour robots.txt, si vous avez une directive en haut et que vous avez une *seconde* nomenclature accidentelle, alors cela sera considéré comme faisant partie de la directive et la directive ne sera pas traitée. Avoir un commentaire en haut signifie que dans le pire des cas, le commentaire sera ignoré. C'est très bien. Vous pouvez aussi simplement avoir une ligne vierge en haut. Ou créez un fichier robots.txt propre. Quoi qu'il en soit, c'est un poste, pas un flic.

« disallow: /robots.txt » – est-ce que cela fait tourner les robots en rond ? Est-ce que cela désindexe votre site ? Non. Mon fichier robots.txt contient beaucoup de choses, et il est plus propre s'il n'est pas indexé avec son contenu. Cela empêche simplement l'exploration du fichier robots.txt à des fins d'indexation. Je pourrais également utiliser l'en-tête HTTP x-robots-tag avec noindex, mais de cette façon, je l'ai également dans le fichier robots.txt.

La durée. JOHN. QU'EST-CE QUE LA TAILLE DE CE FICHIER ? Je m'abstiens volontairement de faire des blagues, n'y pensez pas dans votre tête. C'est Linkedin, nous sommes là pour srs bzns, les amis. PAS DE BLAGUES. La taille provient des tests des différents outils de test robots.txt sur lesquels mon équipe et moi avons travaillé. La RFC indique qu'un robot d'exploration doit analyser au moins 500 kibioctets (bonus j'aime à la première personne qui explique de quel type de collation il s'agit). Il faut s'arrêter quelque part, on pourrait faire des pages infiniment longues (et je l'ai fait, et beaucoup de gens l'ont fait, certains même exprès). En pratique, ce qui se passe, c'est que le système qui vérifie le fichier robots.txt (l'analyseur) fera une coupure quelque part. J'ai ajouté un « interdiction : / » en haut de cette section, donc j'espère que cela sera considéré comme une interdiction générale. Il est possible que l'analyseur se coupe à un endroit gênant, comme une ligne qui contient « allow: /cheeseisbest » et qu'il s'arrête juste au « / », ce qui mettrait l'analyseur dans une impasse (et, trivial ! la règle d'autorisation sera prioritaire si vous avez à la fois « allow: / » et « disallow: / »). Cela semble cependant très improbable. En pratique, les analyseurs qui doivent passer par là m'enverront des éclairs avec leurs yeux de robot. Et arrêtez de ramper, s'ils sont polis. Il y a beaucoup de robots qui sont impolis ou qui mettent des masques lorsqu'ils rampent, mais c'est un sujet pour un autre jour.

Et voilà – quelques bizarreries de robots.txt – maintenant laissez mon robots.txt tranquille 🙂

Et quelle est votre bizarrerie Web préférée?

John a laissé entendre que le site devrait revenir rapidement, a-t-il écrit : « J'ai utilisé l'outil Search Console pour essayer quelque chose. Je pourrais effectuer une récupération rapide si j'appuyais sur le bouton droit :-). » Les pages sont donc dans l'index mais elles sont masquées, comme lorsque vous utilisez l'outil de suppression d'URL.

Mise à jour : le 14 mars à 13 h HE, le site de John est de retour dans l'index :

Johnmu de retour dans l'index Google