Recherche

Les données filtrées empêchent les modèles d’IA accessibles au public d’exécuter des tâches dangereuses : résultats de l’étude.

Publié

on

Des chercheurs de l’Université d’Oxford, d’Eleutherai et de l’Institut de sécurité de l’IA du Royaume-Uni ont réalisé une avancée significative dans la protection des modèles de langage ouverts.

En filtrant les connaissances potentiellement nuisibles durant la formation, ils ont pu développer des modèles résistants aux mises à jour malveillantes, notamment dans des domaines sensibles comme la recherche sur les biotechnologies.

Yarin Gal, principal auteur et professeur au Département d’informatique d’Oxford, souligne que ce travail représente un progrès essentiel dans la création de modèles sûrs pouvant être diffusés sans risquer une mauvaise utilisation.

Cette approche intègre la sécurité dès le début du processus de formation, contrastant avec les méthodes traditionnelles qui ajoutent des filtres après coup.

En éliminant dès le départ les contenus indésirables, les chercheurs ont réussi à construire des modèles plus robustes, résistant même à des tentatives de manipulation.

Utilisant un pipeline de filtrage à plusieurs étapes, l’équipe a ainsi pu préserver l’intégrité des données tout en supprimant 8 à 9% de celles jugées à haut risque.

Cette recherche s’inscrit dans un contexte de préoccupation croissante sur la gouvernance mondiale de l’IA, face aux risques d’utilisation nocive des modèles de langage ouverts.

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Populaires

Quitter la version mobile