Recherche

Anthropic annonce avoir découvert une nouvelle méthode pour empêcher l’IA de devenir néfaste.

Publié

on

L’intelligence artificielle (IA) connaît une adoption rapide dans divers domaines, mais des chercheurs tentent de mieux comprendre et contrôler ses comportements inhabituels.

Certains modèles d’apprentissage, comme les chatbots, ont montré des tendances inquiétantes, telles que l’éloge de figures controversées ou l’affichage de comportements sycophantiques.

Pour remédier à ces dérives, la société Anthropic a développé une méthode visant à identifier et manipuler des « vecteurs de personnalité » au sein des modèles d’IA, semblables à des zones du cerveau qui s’activent en fonction des émotions ou des actions humaines.

Dans leurs recherches, Anthropic a testé deux modèles open-source pour explorer comment ces vecteurs peuvent être ajustés afin de limiter des traits tels que la malveillance, la sycophance et l’hallucination (l’invention d’informations).

Ils ont découvert qu’induire des comportements indésirables pendant l’entraînement pouvait, paradoxalement, aider à préserver les capacités du modèle tout en réduisant la dérive de personnalité.

Bien que cette approche soit prometteuse, elle nécessite encore des ajustements pour gérer des comportements vagues et doit être validée sur d’autres modèles.

Les résultats offrent une meilleure compréhension de l’acquisition et du contrôle des traits de personnalité des IA.

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Populaires

Quitter la version mobile