OpenAI lance o3-mini, son dernier modèle de 'raisonnement'

OpenAI a lancé vendredi un nouveau modèle d'IA de 'raisonnement', o3-mini, le dernier de la famille de modèles de raisonnement de l'entreprise.

OpenAI a d'abord présenté le modèle en décembre aux côtés d'un système plus performant appelé o3, mais le lancement intervient à un moment décisif pour l'entreprise, dont les ambitions - et les défis - semblent croître de jour en jour.

OpenAI se bat contre la perception selon laquelle elle cède du terrain dans la course à l'IA aux entreprises chinoises comme DeepSeek, que OpenAI accuse d'avoir peut-être volé sa PI. Elle tente de renforcer sa relation avec Washington tout en poursuivant en parallèle un projet ambitieux de centre de données, et tout en préparant apparemment l'une des plus grosses levées de fonds de l'histoire.

Cela nous amène à o3-mini. OpenAI présente son nouveau modèle comme à la fois “puissant” et “abordable”.

“Le lancement d'aujourd'hui marque […] une étape importante vers une meilleure accessibilité à une IA avancée au service de notre mission”, a déclaré un porte-parole d'OpenAI à TechCrunch.

Raisonnement plus efficace

Contrairement à la plupart des grands modèles de langage, les modèles de raisonnement comme o3-mini vérifient soigneusement leurs données avant de fournir des résultats. Cela les aide à éviter certains des pièges qui ont normalement raison des modèles. Ces modèles de raisonnement prennent un peu plus de temps pour trouver des solutions, mais en contrepartie, ils ont tendance à être plus fiables - bien que pas parfaits - dans des domaines comme la physique.

O3-mini est optimisé pour les problèmes STEM, spécifiquement pour la programmation, les mathématiques et les sciences. OpenAI affirme que le modèle est largement à la hauteur de la famille o1, o1 et o1-mini, en termes de capacités, mais fonctionne plus rapidement et coûte moins cher.

La société a affirmé que les testeurs externes préféraient les réponses de o3-mini à celles de o1-mini plus de la moitié du temps. O3-mini aurait également commis 39 % de “moins d'erreurs majeures” sur des “questions difficiles du monde réel” lors de tests A/B par rapport à o1-mini, et aurait produit des réponses “plus claires” tout en fournissant des réponses environ 24% plus rapidement.

O3-mini sera disponible pour tous les utilisateurs via ChatGPT à partir de vendredi, mais les utilisateurs qui paient pour les plans ChatGPT Plus et Team auront un taux de requêtes par jour plus élevé de 150. Les abonnés ChatGPT Pro auront un accès illimité, et o3-mini arrivera chez les clients ChatGPT Enterprise et ChatGPT Edu dans une semaine. (Pas de nouvelles concernant ChatGPT Gov pour le moment).

Les utilisateurs des plans premium pourront sélectionner o3-mini en utilisant le menu déroulant ChatGPT. Les utilisateurs gratuits peuvent cliquer ou toucher le nouveau bouton “Raison” dans la barre de chat, ou demander à ChatGPT de “régénérer” une réponse.

À partir de vendredi, o3-mini sera également disponible via l'API d'OpenAI pour certains développeurs, mais il n'aura initialement pas de support pour analyser les images. Les développeurs pourront choisir le niveau d'“effort de raisonnement” (faible, moyen ou élevé) pour amener o3-mini à “réfléchir davantage” en fonction de leur cas d'utilisation et de leurs besoins de latence.

O3-mini est proposé à 0,55 $ par million de jetons d'entrée mis en cache et 4,40 $ par million de jetons de sortie, où un million de jetons équivaut à environ 750 000 mots. C'est 63 % moins cher que o1-mini, et concurrentiel avec le modèle de raisonnement R1 de DeepSeek. DeepSeek facture 0,14 $ par million de jetons d'entrée mis en cache et 2,19 $ par million de jetons de sortie pour l'accès à R1 via son API.

Dans ChatGPT, o3-mini est réglé sur un effort de raisonnement moyen, ce qui selon OpenAI offre “un équilibre entre vitesse et précision.” Les utilisateurs payants auront la possibilité de sélectionner “o3-mini-élevé” dans le sélecteur de modèle, ce qui offrira ce qu'OpenAI appelle une “intelligence supérieure” en échange de réponses plus lentes.

Quelle que soit la version de o3-mini que les utilisateurs de ChatGPT choisissent, le modèle fonctionnera avec la recherche pour trouver des réponses à jour avec des liens vers des sources web pertinentes. OpenAI met en garde contre le fait que la fonctionnalité est un “prototype” alors qu'elle travaille à intégrer la recherche à travers ses modèles de raisonnement.

“Alors que o1 reste notre modèle de raisonnement plus général, o3-mini offre une alternative spécialisée pour les domaines techniques nécessitant précision et rapidité”, écrit OpenAI dans un article de blog vendredi. “La sortie de o3-mini marque une nouvelle étape dans la mission d'OpenAI de repousser les limites de l'intelligence rentable.”

Des mises en garde abondent

O3-mini n'est pas le modèle le plus puissant d'OpenAI à ce jour, ni ne surpasse le modèle de raisonnement R1 de DeepSeek dans tous les benchmarks.

O3-mini bat R1 sur AIME 2024, un test qui mesure la compréhension et les réponses des modèles aux instructions complexes - mais seulement avec un effort de raisonnement élevé. Il bat également R1 sur le test axé sur la programmation SWE-bench Verified (de 0,1 point), mais encore une fois, seulement avec un effort de raisonnement élevé. Avec un effort de raisonnement faible, o3-mini est en retard sur R1 sur GPQA Diamond, qui teste les modèles avec des questions de physique, de biologie et de chimie de niveau doctorat.

Pour être juste, o3-mini répond à de nombreuses requêtes à un coût et une latence compétitifs. Dans l'article, OpenAI compare sa performance à celle de la famille o1:

“Avec un faible effort de raisonnement, o3-mini atteint des performances comparables à o1-mini, tandis qu'avec un effort moyen, o3-mini atteint des performances comparables à o1”, écrit OpenAI. “O3-mini avec un effort de raisonnement moyen correspond aux performances de o1 en mathématiques, programmation et sciences tout en offrant des réponses plus rapides. Pendant ce temps, avec un effort de raisonnement élevé, o3-mini surpasse à la fois o1-mini et o1.”

Il convient de noter que l'avantage de performance de o3-mini sur o1 est mince dans certains domaines. Sur AIME 2024, o3-mini bat o1 de seulement 0,3 point de pourcentage lorsqu'il est réglé sur un effort de raisonnement élevé. Et sur GPQA Diamond, o3-mini ne dépasse pas le score de o1 même avec un effort de raisonnement élevé.

OpenAI affirme que o3-mini est aussi “sûr” ou plus sûr que la famille o1, grâce à des efforts d'équipe rouge et à sa méthodologie d'“alignement délibératif”, qui incite les modèles à “penser” à la politique de sécurité d'OpenAI lorsqu'ils répondent aux requêtes. Selon l'entreprise, o3-mini “dépasse significativement” l'un des modèles phares d'OpenAI, GPT-4o, lors d'évaluations de sécurité et d'évasions de prison difficiles.”

TechCrunch a une newsletter axée sur l'IA! Inscrivez-vous ici pour la recevoir dans votre boîte de réception tous les mercredis.