Recherche
Comment l’architecture des LLM et les données d’apprentissage influencent le biais de l’IA.
Utilisant un cadre théorique basé sur des graphiques, les chercheurs ont analysé comment la conception des modèles affecte cette tendance.
Ils ont constaté que certaines caractéristiques architecturales, notamment les masques d’attention et les encodages de position, peuvent renforcer ce biais.
Par exemple, le masquage causal incite le modèle à accorder plus d’attention aux mots situés au début d’une séquence, même si ces mots sont moins pertinents.
Les expérimentations effectuées montrent une performance des modèles qui suit une courbe en U : les résultats sont meilleurs lorsque la réponse se trouve au début, moins bons au milieu, puis légèrement améliorés à la fin.
Les chercheurs ont suggéré que des modifications dans les techniques de masquage et d’encodage pourraient aider à atténuer ce biais, rendant les systèmes d’IA plus fiables et pertinents pour des applications variées.
Cette compréhension approfondie du mécanisme d’attention pourrait améliorer les performances des modèles dans des contextes critiques où la précision est essentielle.