Google va travailler sur des protocoles Robots.txt complémentaires pour l'IA et plus

Google annoncé hier soir qu’il cherche à développer un protocole complémentaire au protocole robots.txt vieux de 30 ans. Cela est dû à toutes les nouvelles technologies d’IA génératives que Google et d’autres sociétés publient.

Cette annonce intervient peu de temps après l’annonce d’Open AI accédant à du contenu payant pour son service ChatGPT. Mais je sais que beaucoup d’entre vous ne sont pas surpris que Google et d’autres explorent des alternatives à robots.txt avec toute cette technologie d’IA générative flottant sur le Web.

Rien ne change aujourd’hui, tout ce que Google a annoncé, c’est que dans les « prochains mois », ils tiendront des discussions avec la « communauté » pour trouver de nouvelles idées pour une nouvelle solution.

Google a écrit : « Aujourd’hui, nous lançons une discussion publique, invitant les membres des communautés du Web et de l’IA à peser sur les approches des protocoles complémentaires. Nous aimerions un large éventail de voix parmi les éditeurs Web, la société civile, le milieu universitaire et d’autres domaines du monde entier pour se joindre à la discussion, et nous convoquerons ceux qui souhaitent participer au cours des prochains mois. »

Google a ajouté qu’il pensait « qu’il est temps pour les communautés du Web et de l’IA d’explorer des moyens supplémentaires lisibles par machine pour le choix et le contrôle des éditeurs Web pour les cas d’utilisation émergents de l’IA et de la recherche ».

Ce que tout cela signifie en ce moment, c’est, je ne sais pas. Mais voici quelques réponses à mon tweet à ce sujet :

Que diriez-vous d’autoriser les expressions régulières dans robots.txt ? Je parie que cela résoudrait 75% des défis de la directive de crawl rencontrés par les référenceurs.

— Éric Heiken (@EricHeiken) 6 juillet 2023

Je pense que cela fonctionne bien, même si peut-être qu’après 30 ans, il devrait devenir robots.xml ou quelque chose comme beaucoup de choses ont été ajoutées, et le fichier structuré pourrait être plus sujet aux erreurs accidentelles

— Miloš Mileusnić (@mileusna) 6 juillet 2023

« Maintenant que nous avons déjà formé nos LLM sur tout votre contenu propriétaire et protégé par le droit d’auteur, nous allons enfin commencer à penser à vous donner un moyen de vous retirer de tout votre futur contenu pour être utilisé pour nous enrichir. » https://t.co/dda8hHQPfq

– Barry Adams 📰 (@badams) 6 juillet 2023

Gary Illyes de Google, qui a travaillé sur ce protocole au fil des ans, a écrit sur LinkedIn« Il est temps. Il y a près de 30 ans, robots.txt est né et il a bien servi Internet pendant tout ce temps. Avec les technologies d’IA émergentes, nous devons le compléter avec de nouvelles instructions (règles) conçues spécifiquement pour les applications d’IA. »

Et John Muller :

Je suis ravi de voir cela se produire. https://t.co/UTdmeCVwhl

— John Mueller (officiel) · Pas #30D (@JohnMu) 6 juillet 2023

Aujourd’hui, nous lançons un débat public pour explorer un moyen lisible par machine pour le choix et le contrôle des éditeurs Web pour les cas d’utilisation émergents de l’IA et de la recherche. En savoir plus sur cet effort, y compris comment rejoindre la discussion en vous inscrivant : https://t.co/iF9WNyhN3O

— Google SearchLiaison (@searchliaison) 6 juillet 2023

Si vous souhaitez participer, remplissez ce formulaire.

Est-ce que l’un d’entre vous a des idées?

Forum de discussion sur Twitter.