Entreprise
L’IA capable d’apprendre à résoudre des problèmes sans intervention humaine.
Contrairement aux méthodes traditionnelles qui impliquent l’enseignement direct par exemple, l’équipe a adopté l’apprentissage par renforcement, où le modèle apprend par essais et erreurs, recevant des récompenses pour les solutions correctes.
Cela lui a permis de développer des compétences avancées, comme la vérification de ses réponses et l’élaboration de stratégies de résolution de problèmes.
Les résultats de cette approche sont impressionnants : R1 a surpassé des modèles précédemment formés avec guidance humaine, atteignant un taux de précision de 86,7 % lors de l’American Invitational Mathematics Examination 2024.
Toutefois, les chercheurs reconnaissent certaines limites, comme des confusions linguistiques ou une tendance à complexifier des problèmes simples.
Malgré cela, ils croient que ces avancées dans le raisonnement des IA pourraient ouvrir la voie à des systèmes encore plus compétents et autonomes.