Connect with us

Entreprise

Peut-on utiliser des robots pour la culture de nourriture sur Terre et dans l’espace ? | Discussions techniques d’Euronews

Publié

on

La robotique pénètre progressivement des secteurs inattendus comme l’agriculture, visant à pallier la pénurie de main-d’œuvre, à améliorer les rendements et à favoriser la durabilité.

Des entreprises agro-technologiques en Europe, comme Saga Robotics en Norvège, développent des solutions innovantes, notamment des robots autonomes tels que Thorvald, qui traite les maladies des plantes et prédit les rendements.

Malgré les défis de l’agriculture, tels que des conditions difficiles et la gestion d’organismes vivants, la précision des robots et l’intégration de l’intelligence artificielle (IA) promettent de transformer le domaine.

Cependant, l’application de l’IA dans l’agriculture soulève des préoccupations, incluant des risques de cyberattaques et le potentiel d’accroître les inégalités économiques, surtout pour les pays en développement.

De plus, l’avenir de l’agriculture spatiale, encore émergent, présente des défis similaires.

Bien que les systèmes robotiques actuels ne remplissent pas les fonctions traditionnelles de travailleurs agricoles, leur rôle est essentiel pour créer un environnement propice à la culture de plantes dans l’espace, une étape cruciale pour des missions à long terme sur la Lune ou Mars.

Entreprise

Nous Research vient de publier Nomos 1, une IA open source qui se classe deuxième à l’examen de mathématiques notoirement brutal de Putnam. en français

Publié

on

reformule et résume totalement ce texte

Nous Research, la startup d’intelligence artificielle basée à San Francisco, a publié mardi un système de raisonnement mathématique open source appelé Nomos 1 qui a atteint des performances humaines proches de l’élite lors du concours mathématique William Lowell Putnam de cette année, l’un des concours de mathématiques de premier cycle les plus prestigieux et notoirement difficiles au monde.

Le Putnam est connu pour sa difficulté : alors qu’un score parfait est de 120, le meilleur score de cette année était de 90 et la médiane n’était que de 2.

Nomos 1, en revanche, a marqué 87 points – un résultat qui l’aurait classé deuxième sur 3 988 participants au concours de 2024, selon l’entreprise.

Cette version marque un point d’inflexion dans la course qui s’accélère rapidement pour construire des systèmes d’IA capables d’un raisonnement mathématique sophistiqué.

Contrairement aux modèles massifs et gourmands en calcul déployés par les grandes entreprises technologiques, Nomos 1 obtient ses résultats avec une architecture relativement compacte : 30 milliards de paramètres dont environ 3 milliards actifs à tout moment, en utilisant une conception mixte d’experts basée sur le modèle Qwen3 d’Alibaba.

« Ce score se classerait n°2/3988 en 2024 et marque notre première étape avec Hillclimb AI vers la création d’un mathématicien SOTA AI », a annoncé Nous Research sur les réseaux sociaux mardi.

Le même modèle de base a obtenu 24 points sans la formation spécialisée de Nous Research

Le plus frappant est peut-être l’écart entre Nomos 1 et son modèle de base.

Lorsque Nous Research a exécuté le même modèle Qwen3-30B-A3B-Thinking-2507 via un harnais de test identique, il n’a obtenu que 24 sur 120, un résultat qui souligne l’importance cruciale de l’optimisation post-formation et des techniques de raisonnement spécialisées à l’échelle du modèle brut.

« Nomos 1 a obtenu un 87/120 avec 8 scores parfaits », a déclaré la société, notant que la différence de performances « est en grande partie due à la post-formation et à la qualité des données plutôt qu’au harnais ».

Les résultats ont été vérifiés par notation à l’aveugle par un expert humain qui avait déjà terminé dans le top 200 du Putnam.

Nous Research a fourni les soumissions anonymisées à l’évaluateur, puis a publié l’ensemble complet des fichiers désanonymisés et les runbooks utilisés pour les générer sur GitHub.

Pourquoi le concours Putnam est considéré comme le test ultime du raisonnement mathématique

Le Concours mathématique William Lowell Putnam est un concours annuel de mathématiques destiné aux étudiants de premier cycle inscrits dans des établissements d’enseignement supérieur aux États-Unis et au Canada.

Il est largement considéré comme le concours de mathématiques de niveau universitaire le plus prestigieux au monde.

Le concours mathématique notoirement brutal William Lowell Putnam est plus un événement sportif mathématique qu’un test académique.

L’examen comprend deux séances de 3 heures séparées par une pause de 2 heures.

Il y a un total de 12 questions à résoudre, 6 pour chaque session.

Chaque question vaut 10 points, pour un total de 120 points.

Les questions Putnam ne sont pas du genre à apparaître dans les examens ou les manuels réguliers.

Ils ressemblent plus à des énigmes qu’à des calculs, obligeant souvent les élèves à trouver différentes façons de représenter les choses avant qu’une solution puisse se révéler.

L’année dernière, près de 4 000 étudiants à travers le continent ont écrit le Putnam.

Soixante et un pour cent ont obtenu trois points ou moins, selon la Mathematical Association of America, qui organise le concours.

La meilleure note était de 90 sur 120.

De nombreux boursiers Putnam sont devenus d’éminents chercheurs en mathématiques et dans d’autres domaines, notamment trois médaillés Fields – John Milnor, David Mumford et Daniel Quillen – et deux lauréats du prix Nobel de physique – Richard Feynman et Kenneth Wilson.

À l’intérieur du système de raisonnement en deux phases qui alimente les avancées mathématiques de Nomos 1

Nomos 1 est une spécialisation du modèle Qwen3-30B-A3B-Thinking de Qwen, optimisé pour la résolution de problèmes mathématiques et la rédaction de preuves en langage naturel.

Le système a été développé en collaboration avec Hillclimb AI.

Ce qui distingue Nomos 1 de la simple inférence de modèle est son faisceau de raisonnement sophistiqué : un cadre open source qui orchestre la manière dont le modèle aborde et résout les problèmes.

Le harnais fonctionne en deux phases distinctes dans un délai de trois heures, reflétant la structure réelle de la compétition Putnam.

Comment Nomos 1 résout les problèmes : les travailleurs parallèles génèrent et notent les soumissions pendant la phase de résolution, puis un processus de consolidation et de tournoi sélectionne la réponse finale.

(Crédit : Nous Recherche)

Lors de la phase de résolution, les travailleurs parallèles abordent simultanément les problèmes en utilisant un système basé sur les priorités.

Chaque travailleur choisit un problème, génère une soumission, puis note son propre travail sur une échelle de 1 à 7.

Les problèmes avec le moins de notes parfaites sont prioritaires, garantissant ainsi que le système concentre son calcul sur les défis les plus difficiles.

Ce processus se poursuit jusqu’à ce que tous les problèmes aient atteint un nombre cible de scores parfaits autocritiques ou que le temps soit écoulé.

La phase de finalisation commence 15 minutes avant la limite de temps (ou à 50 % pour les séries plus courtes) et utilise un processus de sélection en deux étapes.

Premièrement, une étape de consolidation regroupe les soumissions par conclusion et tente d’identifier le bon groupe – et surtout, pas nécessairement le groupe majoritaire.

Ensuite, un tournoi par paires utilisant l’élimination simple détermine la soumission finale pour chaque problème.

« Notre système de raisonnement open source consiste en une phase de résolution, au cours de laquelle les travailleurs tentent de résoudre le problème le moins résolu et s’auto-évaluent, suivi d’une phase de finalisation, qui consolide les soumissions pour choisir une soumission finale pour chaque problème », a expliqué Nous Research.

Comment Nomos 1 se compare aux systèmes d’IA mathématique de DeepSeek, Google et OpenAI

Les résultats de Nomos 1 arrivent au milieu d’une vague d’avancées en matière d’IA de raisonnement mathématique.

Le modèle de DeepSeek, DeepSeekMath-V2, a obtenu 118 points sur 120 aux questions du concours mathématique William Lowell Putnam 2024, battant le meilleur score humain de 90.

Le modèle a également atteint le niveau des médaillés d’or à l’Olympiade mathématique internationale.

Cette année, le modèle avancé Gemini de Google a fonctionné de bout en bout en langage naturel, produisant des preuves mathématiques rigoureuses directement à partir des descriptions officielles des problèmes, le tout dans le délai de compétition de 4,5 heures.

Ils ont obtenu le résultat de cette année en utilisant une version avancée de Gemini Deep Think.

Ce qui rend la réussite de Nomos 1 remarquable, ce ne sont pas ses performances brutes (il est à la traîne par rapport aux 118/120 de DeepSeek) mais plutôt son accessibilité et son efficacité.

Avec 30 milliards de paramètres dont seulement 3 milliards actifs, le modèle peut fonctionner sur du matériel grand public, un contraste frappant avec les clusters de calcul massifs requis par les modèles pionniers d’OpenAI et de Google.

Hermes 4.3 est arrivé six jours plus tôt, formé sur un réseau blockchain décentralisé

L’annonce de Nomos 1 suit de près la sortie le 3 décembre par Nous Research d’Hermes 4.3, un modèle de langage à usage général qui a marqué une autre étape importante pour l’entreprise.

Hermes 4.3, basé sur le modèle Seed-OSS-36B-Base de ByteDance, est le premier modèle de production que Nous Research a entièrement formé sur son réseau Psyche – une infrastructure de formation distribuée qui utilise un nouvel optimiseur appelé DisTrO pour coordonner la formation entre les nœuds répartis dans les centres de données sur Internet ouvert, sécurisé par consensus sur la blockchain Solana.

L’entreprise a formé Hermes 4.

3 à la fois via des méthodes centralisées traditionnelles et sur le réseau Psyche, spécifiquement pour vérifier que la formation distribuée pouvait égaler ou dépasser les performances centralisées pour les charges de travail de production.

La version formée par Psyche a surpassé la version centralisée dans une suite de tâches en aval, a rapporté la société.

« L’exécution de la formation s’est avérée stable tout au long, avec une moyenne de 144 000 jetons/seconde répartis sur 24 nœuds Psyche », a déclaré Nous Research. « Grâce à la stratégie collective superposée de DisTrO, l’intégralité des communications P2P a été masquée par le temps de formation, atteignant ainsi un débit équivalent à celui d’une formation traditionnelle et centralisée. »

Hermes 4.

3 a également obtenu des résultats de pointe sur RefusalBench, un nouveau benchmark qui mesure la volonté d’un modèle d’être utile dans une variété de scénarios généralement restreints par d’autres modèles.

Le modèle a répondu à 74,60 % des questions de RefusalBench en mode non-raisonnement, surpassant son prédécesseur Hermes 4 70B (59,50 %) et surpassant les modèles fermés dont Grok 4 (51,30 %) et Gemini 2.5 Pro (24,23 %).

Les petits modèles dotés d’une formation intelligente comblent l’écart avec les géants dotés de milliers de milliards de paramètres

Ensemble, les deux versions en une seule semaine signalent le pari stratégique de Nous Research : des modèles plus petits et plus efficaces dotés de techniques de post-formation et d’outils de raisonnement sophistiqués peuvent rivaliser avec – et dans certains cas surpasser – les modèles massifs développés par des concurrents mieux financés.

Pour les décideurs d’entreprise, les implications sont importantes.

Les capacités de raisonnement mathématique ont des applications bien au-delà des compétitions académiques : elles sont essentielles pour la vérification formelle, la preuve de théorèmes, la modélisation scientifique, l’analyse cryptographique et tout domaine nécessitant une déduction logique rigoureuse.

La nature open source des deux versions (Nomos 1 est disponible sous la licence Apache 2.0 sur Hugging Face, avec l’ensemble du raisonnement sur GitHub) signifie que les organisations peuvent déployer ces fonctionnalités sur leur propre infrastructure sans recourir aux appels d’API aux principaux fournisseurs de cloud.

« Pour la première fois, n’importe qui peut utiliser ou accéder à un mathématicien IA de pointe », a noté un observateur sur les réseaux sociaux. « Cela abaisse les obstacles à la recherche sérieuse en mathématiques, à la vérification des preuves, à la modélisation de systèmes complexes et au travail de raisonnement avancé.

 »

Les principaux contributeurs à Nomos 1 incluent Roger Jin, qui a dirigé la formation ; Jeffrey Quesnelle et Dakota Mahan, qui ont construit l’infrastructure ; Chen Guang, qui a conseillé ; et Ryan Teknium et Jeffrey Quesnelle, qui ont assuré le leadership.

Le modèle a été développé avec les contributions de Hillclimb AI et d’une équipe d’experts en mathématiques, dont Samuel Kim, Miron Yurkevich et d’autres.

La course à la formation de mathématiciens en IA s’accélère plus vite que prévu

Le 86e concours Putnam a eu lieu le samedi 6 décembre 2025, trois jours seulement avant la publication de Nomos 1 par Nous Research.

Le timing souligne à quelle vitesse le domaine évolue : les entreprises lancent désormais des systèmes d’IA mathématique capables d’atteindre des performances humaines proches de l’élite quelques jours après les compétitions qu’ils sont censés résoudre.

La concurrence dans le domaine de l’IA mathématique s’est considérablement intensifiée ces derniers mois.

En juillet, une version avancée du modèle Gemini de Google DeepMind et un modèle de raisonnement expérimental d’OpenAI ont tous deux obtenu le statut or à l’OMI 2025.

Le nouveau modèle de DeepSeek a égalé leurs performances, résolvant 5 problèmes sur 6.

Mais les besoins en ressources pour ces systèmes frontières restent prohibitifs pour la plupart des organisations.

L’o1-pro d’OpenAI est estimé à plus de 1,8 billion de paramètres ; Le Gemini 2.

5 Pro de Google dépasse probablement les 400 milliards.

Nomos 1, en revanche, obtient des résultats compétitifs avec une fraction de cette empreinte.

L’écart entre les modèles pionniers massifs et les alternatives open source efficaces se réduit.

Et pour les organisations qui ont besoin de capacités de raisonnement mathématique sans disposer du budget nécessaire au calcul à grande échelle, cet écart vient peut-être d’être suffisamment réduit pour avoir de l’importance.

Comme l’a dit un observateur sur les réseaux sociaux : « Cela marque un bond significatif pour les modèles mathématiques d’IA suffisamment petits pour fonctionner sur votre ordinateur portable. »

Un ordinateur portable qui peut désormais surpasser près de 4 000 des meilleurs mathématiciens de premier cycle du continent.

avec un minimum de 2 paragraphes

Continuer à lire

Discrimination

Donald Trump signe un décret pour empêcher les États américains d’appliquer leurs propres réglementations en matière d’IA en français

Publié

on

Le président américain Donald Trump a signé un décret visant à empêcher les États d’élaborer leurs propres réglementations en matière d’intelligence artificielle (IA), affirmant que l’industrie en plein essor risque d’être étouffée par une mosaïque de règles onéreuses alors qu’elle se bat pour la suprématie avec ses concurrents chinois.

Les membres du Congrès des deux partis, ainsi que les groupes de défense des libertés civiles et des droits des consommateurs, ont fait pression pour davantage de réglementation sur l’IA, affirmant qu’il n’y a pas suffisamment de surveillance pour cette puissante technologie.

Mais Trump a déclaré jeudi aux journalistes dans le Bureau ovale qu’« il n’y aura qu’un seul gagnant » alors que les nations se battent pour dominer l’intelligence artificielle, et que le gouvernement central chinois donne à ses entreprises un seul endroit où s’adresser pour obtenir les approbations gouvernementales.

« Nous avons de gros investissements à venir, mais s’ils devaient obtenir 50 approbations différentes de 50 États différents, vous pouvez l’oublier parce que c’est impossible à faire », a déclaré Trump.

Le décret ordonne au procureur général de créer un nouveau groupe de travail chargé de contester les lois des États et ordonne au ministère du Commerce de dresser une liste des réglementations problématiques.

Cela menace également de restreindre le financement d’un programme de déploiement du haut débit et d’autres programmes de subventions aux États dotés de lois sur l’IA.

David Sacks, un capital-risqueur qui investit massivement dans l’IA et qui dirige les politiques de Trump en matière de crypto-monnaie et d’intelligence artificielle, a déclaré que l’administration Trump ne ferait que repousser « les exemples les plus onéreux de réglementation étatique », mais ne s’opposerait pas aux mesures de « sécurité des enfants ».

Ce que les États ont proposé

Quatre États – le Colorado, la Californie, l’Utah et le Texas – ont adopté des lois fixant certaines règles pour l’IA dans le secteur privé, selon l’Association internationale des professionnels de la vie privée.

Ces lois incluent la limitation de la collecte de certaines informations personnelles et exigent plus de transparence de la part des entreprises.

Les lois répondent à l’IA qui imprègne déjà la vie quotidienne.

La technologie aide les Américains à prendre des décisions importantes, notamment celles qui obtiendront un entretien d’embauche, un bail d’appartement, un prêt immobilier et même certains soins médicaux.

Mais des recherches ont montré qu’il peut commettre des erreurs dans ces décisions, notamment en donnant la priorité à un sexe ou une race en particulier.

Les propositions plus ambitieuses des États en matière de réglementation de l’IA exigent que les entreprises privées fassent preuve de transparence et évaluent les risques possibles de discrimination liés à leurs programmes d’IA.

Au-delà de ces règles plus strictes, de nombreux États du pays ont réglementé certains aspects de l’IA : interdisant l’utilisation de deepfakes lors des élections et pour créer de la pornographie non consensuelle, par exemple, ou mettant en place des règles concernant l’utilisation de l’IA par le gouvernement. avec un minimum de 2 paragraphes

Continuer à lire

Entreprise

GPT-5.2 premières impressions : une mise à jour puissante, notamment pour les tâches et workflows métiers en français

Publié

on

OpenAI a officiellement publié GPT-5.

2, et les réactions des premiers testeurs – parmi lesquels OpenAI a lancé le modèle plusieurs jours avant sa sortie publique, dans certains cas il y a des semaines – dressent un tableau à deux tons : il s’agit d’un bond en avant monumental pour un raisonnement et un codage approfondis et autonomes, mais potentiellement une mise à jour « incrémentielle » décevante pour les interlocuteurs occasionnels.

Après des périodes d’accès anticipé et un déploiement plus large aujourd’hui, les dirigeants, les développeurs et les analystes se sont tournés vers X (anciennement Twitter) et les blogs de l’entreprise pour partager leurs premiers résultats de tests.

Voici un tour d’horizon des premières réactions face au dernier modèle phare d’OpenAI. « L’IA en tant qu’analyste sérieux » L’éloge le plus fort de GPT-5.

2 se concentre sur sa capacité à résoudre des « problèmes difficiles » qui nécessitent un temps de réflexion prolongé.

Matt Shumer, PDG d’HyperWriteAI, n’a pas mâché ses mots dans sa critique, qualifiant GPT-5.

2 Pro de « meilleur modèle au monde ».

Shumer a souligné la ténacité du modèle, notant qu’« il réfléchit pendant plus d’une heure à des problèmes difficiles.

Et il accomplit des tâches qu’aucun autre modèle ne peut réaliser ».

Ce sentiment a été repris par Allie K.

Miller, entrepreneur en IA et ancien cadre d’AWS.

Miller a décrit le modèle comme une étape vers « l’IA en tant qu’analyste sérieux » plutôt que comme « compagnon amical ». « La réflexion et la résolution de problèmes semblent nettement plus fortes », a écrit Miller sur X.

« Il donne des explications beaucoup plus profondes que ce à quoi je suis habitué.

À un moment donné, il a littéralement écrit du code pour améliorer son propre OCR au milieu d’une tâche.

 » Gains d’entreprise : Box signale des gains de performances distincts Pour le secteur des entreprises, la mise à jour semble être encore plus significative.

Aaron Levie, PDG de Box, a révélé sur X que son entreprise avait testé GPT-5.

2 en accès anticipé.

Levie a rapporté que le modèle fonctionne « 7 points de mieux que GPT-5.1 » sur ses tests de raisonnement étendus, qui se rapprochent du travail de connaissances du monde réel dans les services financiers et les sciences de la vie. « Le modèle a également effectué la majorité des tâches beaucoup plus rapidement que GPT-5.1 et GPT-5″, a noté Levie, confirmant que Box AI déploiera prochainement l’intégration de GPT-5.

2.

Rutuja Rajwade, responsable senior du marketing produit chez Box, a développé ce point dans un article de blog de l’entreprise, citant des améliorations spécifiques de la latence.

Les tâches d’« extraction complexe » sont passées de 46 secondes sur GPT-5 à seulement 12 secondes avec GPT-5.

2.

Rajwade a également noté une augmentation des capacités de raisonnement pour le secteur vertical des médias et du divertissement, passant de 76 % de précision dans GPT-5.

1 à 81 % dans le nouveau modèle.

Un « grand pas » pour le codage et la simulation Les développeurs trouvent GPT-5.

2 particulièrement efficace pour la génération « one-shot » de structures de code complexes.

Pietro Schirano, PDG de magicpathai, a partagé une vidéo du modèle créant un moteur graphique 3D complet dans un seul fichier avec des commandes interactives. « C’est un sérieux pas en avant dans le raisonnement complexe, les mathématiques, le codage et les simulations », a déclaré Schirano. « Le rythme des progrès est irréel.

 » De même, Ethan Mollick, professeur à la Wharton School of Business de l’Université de Pennsylvanie et utilisateur et écrivain de longue date de LLM et d’IA, a démontré la capacité du modèle à créer un shader visuellement complexe – une ville néo-gothique infinie dans un océan tumultueux – via une seule invite.

L’ère agentique : une autonomie de longue durée Le changement le plus fonctionnel est peut-être la capacité du modèle à rester occupé pendant des heures sans perdre le fil.

Dan Shipper, PDG de la newsletter réfléchie sur les tests d’IA Every, a rapporté que le modèle a effectué avec succès une analyse des profits et pertes (P&L) qui l’a obligé à fonctionner de manière autonome pendant deux heures.

« Il a effectué une analyse P&L pendant 2 heures et m’a donné d’excellents résultats », a écrit Shipper.

Cependant, Shipper a également noté que pour les tâches quotidiennes, la mise à jour semble « principalement incrémentielle ».

Dans un article pour Every, Katie Parrott a écrit que même si GPT-5.2 excelle dans le suivi des instructions, il est « moins ingénieux » que ses concurrents comme Claude Opus 4.

5 dans certains contextes, comme déduire la localisation d’un utilisateur à partir de données de courrier électronique.

Les inconvénients : Vitesse et rigidité Malgré les capacités de raisonnement, la « sensation » du modèle a suscité des critiques.

Shumer a mis en évidence une « pénalité de vitesse » importante lors de l’utilisation du mode Réflexion du modèle. « D’après mon expérience, le mode Réflexion est très lent pour la plupart des questions », a écrit Shumer dans sa revue approfondie. « Je n’utilise presque jamais Instant. » Allie Miller a également souligné des problèmes liés au comportement par défaut du modèle. « L’inconvénient, c’est le ton et le format », a-t-elle noté. « La voix par défaut semblait un peu plus rigide et le comportement longueur/démarquage est extrême : une simple question transformée en 58 puces et points numérotés. » Le verdict Les premières réactions suggèrent que GPT-5.

2 est un outil optimisé pour les utilisateurs expérimentés, les développeurs et les agents d’entreprise plutôt que pour le chat occasionnel.

Comme Shumer l’a résumé dans sa critique : « Pour des recherches approfondies, un raisonnement complexe et des tâches qui bénéficient d’une réflexion approfondie, GPT-5.2 Pro est la meilleure option disponible actuellement. » Cependant, pour les utilisateurs en quête d’écriture créative ou de réponses rapides et fluides, des modèles comme Claude Opus 4.5 restent de sérieux concurrents. « Mon modèle préféré reste Claude Opus 4.5 », a admis Miller, « mais mon travail complexe sur ChatGPT bénéficiera d’un joli coup de pouce progressif. » avec un minimum de 2 paragraphes

Continuer à lire

Populaires