Les nouveaux modèles d'IA de raisonnement d'OpenAI hallucinent plus

Les nouveaux modèles d'IA o3 et o4-mini d'OpenAI, récemment lancés, sont à la pointe de la technologie à bien des égards. Cependant, les nouveaux modèles hallucinent toujours, ou inventent des choses - en fait, ils hallucinent plus que plusieurs des anciens modèles d'OpenAI.

Les hallucinations se sont avérées être l'un des plus grands et des plus difficiles problèmes à résoudre en IA, affectant même les systèmes les plus performants d'aujourd'hui. Historiquement, chaque nouveau modèle s'est amélioré légèrement dans le département de l'hallucination, hallucinant moins que son prédécesseur. Mais cela ne semble pas être le cas pour o3 et o4-mini.

Selon les tests internes d'OpenAI, o3 et o4-mini, qui sont des modèles de raisonnement, hallucinent plus souvent que les modèles de raisonnement précédents de l'entreprise - o1, o1-mini et o3-mini - ainsi que les modèles traditionnels, "non raisonnants" d'OpenAI, tels que GPT-4o.

Peut-être plus inquiétant, le fabricant de ChatGPT ne sait pas vraiment pourquoi cela se produit.

Dans son rapport technique pour o3 et o4-mini, OpenAI écrit que "plus de recherches sont nécessaires" pour comprendre pourquoi les hallucinations s'aggravent à mesure qu'il met à l'échelle les modèles de raisonnement. O3 et o4-mini performent mieux dans certains domaines, y compris les tâches liées à la programmation et aux mathématiques. Mais parce qu'ils "font plus d'allégations en général", ils sont souvent amenés à faire "plus d'allégations exactes ainsi que plus d'allégations inexactes/hallucinées", selon le rapport.

OpenAI a constaté que o3 hallucinait en réponse à 33 % des questions sur PersonQA, le benchmark interne de l'entreprise pour mesurer l'exactitude de la connaissance d'un modèle sur les personnes. C'est environ le double du taux d'hallucination des modèles de raisonnement précédents d'OpenAI, o1 et o3-mini, qui ont marqué respectivement 16 % et 14,8 %. O4-mini a fait encore pire sur PersonQA - hallucinant 48 % du temps.

Les tests tiers réalisés par Transluce, un laboratoire de recherche en intelligence artificielle à but non lucratif, ont également révélé des preuves que o3 a tendance à inventer des actions qu'il a prises dans le processus d'arrivée aux réponses. Par exemple, Transluce a observé que o3 prétendait avoir exécuté du code sur un MacBook Pro 2021 "en dehors de ChatGPT", puis copié les chiffres dans sa réponse. Bien que o3 ait accès à certains outils, il ne peut pas le faire.

"Notre hypothèse est que le type d'apprentissage par renforcement utilisé pour les modèles de la série o peut amplifier les problèmes qui sont généralement atténués (mais pas complètement effacés) par les pipelines de post-entraînement standard", a déclaré Neil Chowdhury, chercheur chez Transluce et ancien employé d'OpenAI, dans un e-mail à TechCrunch.

Sarah Schwettmann, co-fondatrice de Transluce, a ajouté que le taux d'hallucination de o3 peut le rendre moins utile qu'il ne le serait autrement.

Kian Katanforoosh, professeur adjoint à Stanford et PDG de la startup de requalification Workera, a déclaré à TechCrunch que son équipe teste déjà o3 dans ses flux de travail de codage, et qu'ils l'ont trouvé meilleur que la concurrence. Cependant, Katanforoosh dit que o3 a tendance à halluciner des liens de site Web cassés. Le modèle fournit un lien qui, lorsqu'on clique dessus, ne fonctionne pas.

Les hallucinations peuvent aider les modèles à arriver à des idées intéressantes et à être créatifs dans leur réflexion, mais elles rendent aussi certains modèles difficiles à vendre pour les entreprises dans des marchés où l'exactitude est primordiale. Par exemple, un cabinet d'avocats ne serait probablement pas satisfait d'un modèle qui insère beaucoup d'erreurs factuelles dans les contrats des clients.

Une approche prometteuse pour augmenter l'exactitude des modèles est de leur donner des capacités de recherche sur le Web. Le GPT-4o d'OpenAI avec recherche web atteint une précision de 90 % sur SimpleQA, un autre benchmark de précision d'OpenAI. Potentiellement, la recherche pourrait également améliorer les taux d'hallucination des modèles de raisonnement, du moins dans les cas où les utilisateurs sont prêts à exposer les requêtes à un fournisseur de recherche tiers.

Si la mise à l'échelle des modèles de raisonnement continue effectivement d'aggraver les hallucinations, cela rendra la chasse à une solution d'autant plus urgente.

"L'adresse des hallucinations sur tous nos modèles est un domaine de recherche en cours, et nous travaillons continuellement pour améliorer leur précision et leur fiabilité", a déclaré le porte-parole d'OpenAI, Niko Felix, dans un e-mail à TechCrunch.

Au cours de la dernière année, l'industrie plus large de l'IA s'est concentrée sur les modèles de raisonnement après que les techniques pour améliorer les modèles d'IA traditionnels ont commencé à montrer des rendements décroissants. Le raisonnement améliore les performances des modèles sur une variété de tâches sans nécessiter de grandes quantités de calcul et de données pendant la formation. Pourtant, il semble que le raisonnement puisse également conduire à plus d'hallucinations - présentant un défi.