Recherche
Les modèles de vision linguistique développent des capacités de raisonnement spatial grâce à des environnements artificiels et des descriptions de scènes en trois dimensions.
Une équipe de recherche de l’Institut italien de technologie (IIT) et de l’Université d’Aberdeen a développé un nouveau cadre conceptuel et un ensemble de données pour former des modèles de vision en langue (VLM) sur des tâches de raisonnement spatial.
Ce projet, issu de la collaboration entre les deux institutions, vise à améliorer l’interaction des robots avec leur environnement et les humains en intégrant des mécanismes de cognition sociale.
Les chercheurs ont créé un monde virtuel dans lequel des cuboïdes sont observés sous différents angles, afin de permettre aux robots de mieux comprendre les perspectives des autres.
Ce travail théorique ouvre des voies prometteuses pour la formation de systèmes d’IA incarnée.
Les chercheurs estiment que ces nouvelles capacités de raisonnement spatial permettront aux robots de mieux interpréter les instructions et de réaliser des interactions plus signifiantes avec les humains.
La prochaine étape consiste à rendre cet environnement virtuel plus réaliste pour faciliter la transition vers des applications dans le monde réel, rendant les interactions entre robots et humains plus efficaces.