Non classé

Inverser l’IA pour se protéger contre le recâblage malveillant, même après la suppression des couches essentielles.

Publié

on

Les chercheurs de l’Université de Californie à Riverside se penchent sur les vulnérabilités des modèles d’IA open-source réduits pour fonctionner sur des appareils à faible puissance.

En constatant que certaines couches essentielles à la sécurité de ces modèles sont souvent ignorées, ils proposent une nouvelle méthode appelée « recyclage de la structure interne du modèle » pour maintenir la capacité de détection et de blocage des contenus dangereux, même après que certaines fonctionnalités ont été supprimées.

Cette approche, décrite comme un « piratage bienveillant », permettrait de préserver les garanties de sécurité des modèles AI tout en renforçant leur efficacité.

Les tests effectués sur le modèle de langage visuel Llava 1.

5 ont montré que, après modification, le modèle refusait systématiquement de répondre à des requêtes dangereuses.

Les chercheurs visent à établir des techniques qui garantissent la sécurité à chaque couche interne, rendant l’IA plus robuste face aux risques potentiels tout en restant ouverte et accessible.

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Populaires

Quitter la version mobile