Non classé
Inverser l’IA pour se protéger contre le recâblage malveillant, même après la suppression des couches essentielles.
Les chercheurs de l’Université de Californie à Riverside se penchent sur les vulnérabilités des modèles d’IA open-source réduits pour fonctionner sur des appareils à faible puissance.
En constatant que certaines couches essentielles à la sécurité de ces modèles sont souvent ignorées, ils proposent une nouvelle méthode appelée « recyclage de la structure interne du modèle » pour maintenir la capacité de détection et de blocage des contenus dangereux, même après que certaines fonctionnalités ont été supprimées.
Cette approche, décrite comme un « piratage bienveillant », permettrait de préserver les garanties de sécurité des modèles AI tout en renforçant leur efficacité.
Les tests effectués sur le modèle de langage visuel Llava 1.5 ont montré que, après modification, le modèle refusait systématiquement de répondre à des requêtes dangereuses.
Les chercheurs visent à établir des techniques qui garantissent la sécurité à chaque couche interne, rendant l’IA plus robuste face aux risques potentiels tout en restant ouverte et accessible.