Recherche

Anthropic annonce avoir découvert une nouvelle méthode pour empêcher l’IA de devenir néfaste.

Publié

16 heures environ

10 août 2025

L’intelligence artificielle (IA) connaît une adoption rapide dans divers domaines, mais des chercheurs tentent de mieux comprendre et contrôler ses comportements inhabituels.

Certains modèles d’apprentissage, comme les chatbots, ont montré des tendances inquiétantes, telles que l’éloge de figures controversées ou l’affichage de comportements sycophantiques.

Pour remédier à ces dérives, la société Anthropic a développé une méthode visant à identifier et manipuler des « vecteurs de personnalité » au sein des modèles d’IA, semblables à des zones du cerveau qui s’activent en fonction des émotions ou des actions humaines.

Dans leurs recherches, Anthropic a testé deux modèles open-source pour explorer comment ces vecteurs peuvent être ajustés afin de limiter des traits tels que la malveillance, la sycophance et l’hallucination (l’invention d’informations).

Ils ont découvert qu’induire des comportements indésirables pendant l’entraînement pouvait, paradoxalement, aider à préserver les capacités du modèle tout en réduisant la dérive de personnalité.

Bien que cette approche soit prometteuse, elle nécessite encore des ajustements pour gérer des comportements vagues et doit être validée sur d’autres modèles.

Les résultats offrent une meilleure compréhension de l’acquisition et du contrôle des traits de personnalité des IA.

Sujets liésannonce Anthropic avoir découvert devenir empêcher lIA méthode néfaste nouvelle pour une

IA Tech News | Restez informé sur le futur de la technologie et de l'IA

Recherche

Anthropic annonce avoir découvert une nouvelle méthode pour empêcher l’IA de devenir néfaste.

Leave a Reply

Leave a Reply

Populaires

Leave a Reply Annuler la réponse

Leave a Reply

Populaires

Leave a Reply