Recherche

Comment l’architecture des LLM et les données d’apprentissage influencent le biais de l’IA.

Publié

on

La recherche menée par des scientifiques du MIT a exploré le phénomène de « biais de position » des grands modèles de langages (LLMs) qui tendent à valoriser davantage les informations présentes au début et à la fin d’un texte, tout en négligeant le contenu intermédiaire.

Utilisant un cadre théorique basé sur des graphiques, les chercheurs ont analysé comment la conception des modèles affecte cette tendance.

Ils ont constaté que certaines caractéristiques architecturales, notamment les masques d’attention et les encodages de position, peuvent renforcer ce biais.

Par exemple, le masquage causal incite le modèle à accorder plus d’attention aux mots situés au début d’une séquence, même si ces mots sont moins pertinents.

Les expérimentations effectuées montrent une performance des modèles qui suit une courbe en U : les résultats sont meilleurs lorsque la réponse se trouve au début, moins bons au milieu, puis légèrement améliorés à la fin.

Les chercheurs ont suggéré que des modifications dans les techniques de masquage et d’encodage pourraient aider à atténuer ce biais, rendant les systèmes d’IA plus fiables et pertinents pour des applications variées.

Cette compréhension approfondie du mécanisme d’attention pourrait améliorer les performances des modèles dans des contextes critiques où la précision est essentielle.

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Populaires

Quitter la version mobile