Entreprise
Ajoutez des humains : une étude d’Oxford met en lumière le lien omis dans les tests de chatbots.
Rejoignez l’événement VB Transform, qui s’appuie sur l’expertise des chefs d’entreprise depuis près de 20 ans pour créer de véritables stratégies d’IA.
Une recherche menée par l’Université d’Oxford a analysé la performance des modèles de langage en matière de diagnostic médical.
Bien que les LLM, comme le GPT-4, montrent des résultats impressionnants dans des environnements contrôlés, ils peinent à interagir efficacement avec des patients réels.
Lors d’une étude impliquant près de 1 300 participants, ceux utilisant des LLM ont obtenu des diagnostics corrects dans moins de 35% des cas, contre 76% pour un groupe témoin auto-diagnostiquant.
Cette situation soulève des questions sur l’utilisation des LLM pour des conseils médicaux, car la communication entre l’utilisateur et le modèle peut être entravée par des informations incomplètes ou mal interprétées.
En conclusion, il est crucial d’évaluer les LLM non seulement sur leur performance théorique, mais aussi sur leur capacité à interagir avec les humains dans des situations du monde réel.