Recherche

Les modèles de vision linguistique développent des capacités de raisonnement spatial grâce à des environnements artificiels et des descriptions de scènes en trois dimensions.

Publié

10 mois environ

14 juin 2025

Une équipe de recherche de l’Institut italien de technologie (IIT) et de l’Université d’Aberdeen a développé un nouveau cadre conceptuel et un ensemble de données pour former des modèles de vision en langue (VLM) sur des tâches de raisonnement spatial.

Ce projet, issu de la collaboration entre les deux institutions, vise à améliorer l’interaction des robots avec leur environnement et les humains en intégrant des mécanismes de cognition sociale.

Les chercheurs ont créé un monde virtuel dans lequel des cuboïdes sont observés sous différents angles, afin de permettre aux robots de mieux comprendre les perspectives des autres.

Ce travail théorique ouvre des voies prometteuses pour la formation de systèmes d’IA incarnée.

Les chercheurs estiment que ces nouvelles capacités de raisonnement spatial permettront aux robots de mieux interpréter les instructions et de réaliser des interactions plus signifiantes avec les humains.

La prochaine étape consiste à rendre cet environnement virtuel plus réaliste pour faciliter la transition vers des applications dans le monde réel, rendant les interactions entre robots et humains plus efficaces.

Sujets liésartificiels capacités des descriptions développent dimensions environnements grâce les linguistique modèles raisonnement scènes spatial trois vision

IA Tech News | Restez informé sur le futur de la technologie et de l'IA

Recherche

Les modèles de vision linguistique développent des capacités de raisonnement spatial grâce à des environnements artificiels et des descriptions de scènes en trois dimensions.

Leave a Reply

Leave a Reply

Populaires

Leave a Reply Annuler la réponse

Leave a Reply

Populaires

Leave a Reply