
Même Pokémon n'est pas à l'abri de la controverse sur l'étalonnage de l'IA.
\nLa semaine dernière, un post sur X est devenu viral, affirmant que le dernier modèle Gemini de Google avait dépassé le modèle phare Claude d'Anthropic dans la trilogie originale des jeux vidéo Pokémon. Apparemment, Gemini avait atteint Lavender Town dans un stream Twitch d'un développeur; Claude était bloqué à Mont Moon fin février.
\n\n\nGemini est actuellement en avance sur Claude dans Pokémon après avoir atteint Lavender Town
\n119 vues en direct seulement au fait, stream incroyablement sous-estimé pic.twitter.com/8AvSovAI4x
\n— Jush (@Jush21e8) 10 avril 2025
\n
Mais ce que le post n'a pas mentionné, c'est que Gemini avait un avantage.
\nComme l'ont souligné des utilisateurs sur Reddit, le développeur qui gère le stream de Gemini a construit une mini-carte personnalisée qui aide le modèle à identifier les "tuiles" dans le jeu comme les arbres qui peuvent être coupés. Cela réduit le besoin pour Gemini d'analyser les captures d'écran avant de prendre des décisions de jeu.
\nMaintenant, Pokémon est au mieux un test semi-sérieux de l'IA - peu soutiendraient que c'est un test très informatif des capacités d'un modèle. Mais c'est un exemple instructif de comment différentes implémentations d'un étalon peuvent influencer les résultats.
\nPar exemple, Anthropic a rapporté deux scores pour son récent modèle Anthropic 3.7 Sonnet sur le benchmark SWE-bench Verified, conçu pour évaluer les capacités de codage d'un modèle. Claude 3.7 Sonnet a atteint une précision de 62,3% sur SWE-bench Verified, mais de 70,3% avec un "scaffold personnalisé" développé par Anthropic.
\nPlus récemment, Meta a affiné une version de l'un de ses modèles plus récents, Llama 4 Maverick, pour bien se comporter sur un benchmark spécifique, LM Arena. La version de base du modèle obtient des scores significativement moins bons sur la même évaluation.
\nÉtant donné que les étalons de l'IA - Pokémon inclus - sont des mesures imparfaites pour commencer, des implémentations personnalisées et non standard menacent de brouiller encore plus les cartes. Autrement dit, il ne semble pas probable qu'il devienne plus facile de comparer les modèles à mesure qu'ils sont publiés.
\n