Recherche
Qwenlong-L1 surmonte le défi du raisonnement à long terme qui affecte les LLM actuels.
Alibaba a lancé Qwenlong-L1, un cadre d’apprentissage qui permet aux modèles de langue de traiter des entrées très longues.
Cette innovation pourrait transformer les applications commerciales nécessitant une compréhension approfondie de documents complexes, comme des contrats ou des rapports financiers.
Les modèles de raisonnement à long terme (LRM) ont progressé grâce à l’apprentissage par renforcement, améliorant leur capacité à résoudre des problèmes, mais restent limités avec des textes plus longs, générant un obstacle pour les recherches nécessitant une interaction avec des données étendues.
Qwenlong-L1 adopte une approche en plusieurs étapes pour surmonter ces obstacles.
Il commence par une phase de formation sur des exemples de raisonnement à long terme, évolue par une série de stratégies adaptées à des contextes de plus en plus longs, et intègre des exemples difficiles pour renforcer l’apprentissage.
De plus, il utilise un système de récompense hybride pour garantir des réponses précises et pertinentes.
Testé sur des scénarios réalistes, Qwenlong-L1 a démontré des performances impressionnantes, surpassant plusieurs modèles concurrents et montrant ainsi un potentiel pour transformer des secteurs comme le droit et la finance.