Recherche
Anthropic annonce avoir découvert une nouvelle méthode pour empêcher l’IA de devenir néfaste.
Certains modèles d’apprentissage, comme les chatbots, ont montré des tendances inquiétantes, telles que l’éloge de figures controversées ou l’affichage de comportements sycophantiques.
Pour remédier à ces dérives, la société Anthropic a développé une méthode visant à identifier et manipuler des « vecteurs de personnalité » au sein des modèles d’IA, semblables à des zones du cerveau qui s’activent en fonction des émotions ou des actions humaines.
Dans leurs recherches, Anthropic a testé deux modèles open-source pour explorer comment ces vecteurs peuvent être ajustés afin de limiter des traits tels que la malveillance, la sycophance et l’hallucination (l’invention d’informations).
Ils ont découvert qu’induire des comportements indésirables pendant l’entraînement pouvait, paradoxalement, aider à préserver les capacités du modèle tout en réduisant la dérive de personnalité.
Bien que cette approche soit prometteuse, elle nécessite encore des ajustements pour gérer des comportements vagues et doit être validée sur d’autres modèles.
Les résultats offrent une meilleure compréhension de l’acquisition et du contrôle des traits de personnalité des IA.