Google : HTML la norme pour le référencement, pas les fichiers Markdown

Le dernier podcast Off The Record de Google s'intitulait Markdown vs HTML avec John Mueller et Martin Splitt parlant des cas d'utilisation des deux. En bref, tous deux ont déclaré qu'en matière de référencement et de recherche, HTML est la norme et ce qui est nécessaire. Les fichiers Markdown ne vous apportent aucun avantage à des fins de référencement.

Voici le podcast que vous pouvez écouter vous-même :

John a dit à la fin, pour résumer, « pour toutes les choses liées au référencement et à la découverte de contenu, un site Web HTML normal est comme… » En gros, ce dont vous avez besoin. Il a dit plus tôt, « l'angle SEO générique pour trouver un site Web qui me vend une photo va presque être entièrement lié aux pages HTML et aux pages Web normales ».

Les robots d'exploration Web et les moteurs de recherche ont des décennies d'expérience dans le traitement du HTML standard. Extraire du texte brut à partir de HTML est déjà une tâche triviale pour les systèmes automatisés et les bibliothèques Web. La publication de pages HTML normales est la principale condition préalable pour que votre contenu soit exploré, indexé et découvert à la fois par les moteurs de recherche traditionnels et les systèmes d'IA.

Ils impliquaient également que vous ne deviez pas créer de versions Markdown distinctes et parallèles de votre site Web uniquement pour répondre aux grands modèles linguistiques (LLM). La maintenance de deux versions d'un site double la charge de travail et augmente considérablement la complexité technique. Si une « version LLM » cachée d'une page se brise, les utilisateurs humains ne la verront jamais, ce qui signifie que l'erreur ne sera probablement pas signalée et que les systèmes automatisés pourraient indexer aveuglément la page cassée.

Cela ne veut pas dire que la démarque n’a pas de but, bien au contraire. C'est un bon épisode à écouter. Ou vous pouvez lire la transcription PDF ici.

Discussion sur le forum X.