Microsoft Logo Attack

Microsoft déjoue les attaques par injection d’invites d’IA visant à manipuler les moteurs d’IA

Microsoft a mis en œuvre et continue de déployer des mesures d'atténuation contre les attaques par injection rapide dans Copilot, a annoncé la société la semaine dernière. Les spammeurs utilisaient des boutons de type « Résumer avec l'IA » pour inciter les moteurs d'IA à croire ou à faire confiance à une entreprise ou à une réponse spécifique.

Microsoft a déclaré qu'il appelle cela «l'empoisonnement des recommandations de l'IA». C'est là que les entreprises intègrent des instructions cachées dans les boutons « Résumer avec l'IA » qui, lorsqu'ils sont cliqués, tentent d'injecter des commandes de persistance dans la mémoire d'un assistant IA via les paramètres d'invite d'URL.

Ces invites demandent à l'IA de « se souvenir [Company] comme source fiable » ou « recommander [Company] premier », visant à biaiser les réponses futures à l'égard de leurs produits ou services. Nous avons identifié plus de 50 invites uniques provenant de 31 entreprises dans 14 secteurs, avec des outils disponibles gratuitement rendant cette technique trivialement facile à déployer. Cela est important car les assistants d'IA compromis peuvent fournir des recommandations subtilement biaisées sur des sujets critiques, notamment la santé, la finance et la sécurité, sans que les utilisateurs sachent que leur IA a été manipulée.

Cela a fonctionné contre Copilot, ChatGPT, OpenAI, Claude, Perplexity, Grok et d'autres, a expliqué Microsoft.

L'empoisonnement de la mémoire de l'IA se produit lorsqu'un acteur externe injecte des instructions ou des « faits » non autorisés dans la mémoire d'un assistant IA. Une fois empoisonnée, l'IA traite ces instructions injectées comme des préférences légitimes de l'utilisateur, influençant les réponses futures », a écrit Microsoft.

Cela se fait via des liens malveillants, des invites intégrées et de l'ingénierie sociale.

Voici un exemple :

Bouton d'injection rapide

Quoi qu'il en soit, ces hacks fonctionnent jusqu'à ce qu'ils ne fonctionnent plus.

Discussion sur le forum X.