OpenAI publie la voix hyper-réaliste de ChatGPT à certains utilisateurs payants

OpenAI a commencé à déployer le mode voix avancé de ChatGPT le mardi, offrant aux utilisateurs leur premier accès aux réponses audio hyper-réalistes de GPT-4o. La version alpha sera disponible pour un petit groupe d'utilisateurs ChatGPT Plus aujourd'hui, et OpenAI indique que la fonctionnalité sera déployée progressivement pour tous les utilisateurs Plus à l'automne 2024.

Lorsque OpenAI a présenté pour la première fois la voix de GPT-4o en mai, la fonction a choqué le public avec des réponses rapides et une ressemblance troublante avec la voix d'un être humain réel - en particulier une en particulier. La voix, Sky, ressemblait à celle de Scarlett Johansson, l'actrice derrière l'assistant artificiel dans le film "Her". Peu de temps après la démonstration d'OpenAI, Johansson a déclaré avoir refusé plusieurs demandes du PDG Sam Altman d'utiliser sa voix, et après avoir vu la démo de GPT-4o, a engagé un conseil juridique pour défendre sa ressemblance. OpenAI a nié avoir utilisé la voix de Johansson, mais a ensuite retiré la voix montrée dans sa démo. En juin, OpenAI a déclaré qu'il retarderait la sortie du mode voix avancé pour améliorer ses mesures de sécurité.

Un mois plus tard, et l'attente est terminée (en quelque sorte). OpenAI indique que les capacités de vidéo et de partage d'écran présentées lors de sa mise à jour de printemps ne feront pas partie de cette version alpha, et seront lancées ultérieurement. Pour l'instant, la démo de GPT-4o qui a impressionné tout le monde est encore juste une démo, mais certains utilisateurs premium auront maintenant accès à la fonction voix de ChatGPT montrée là-bas.

ChatGPT peut maintenant parler et écouter

Vous avez peut-être déjà essayé le mode voix actuellement disponible dans ChatGPT, mais OpenAI indique que le mode voix avancé est différent. La vieille solution audio de ChatGPT utilisait trois modèles distincts: un pour convertir votre voix en texte, GPT-4 pour traiter votre requête, puis un troisième pour convertir le texte de ChatGPT en voix. Mais GPT-4o est multimodal, capable de traiter ces tâches sans l'aide de modèles auxiliaires, créant des conversations avec une latence significativement plus faible. OpenAI affirme également que GPT-4o peut détecter les intonations émotionnelles dans votre voix, y compris la tristesse, l'excitation ou le chant.

Dans ce pilote, les utilisateurs de ChatGPT Plus pourront voir de première main à quel point le mode voix avancé d'OpenAI est vraiment hyper-réaliste. TechCrunch n'a pas pu tester la fonction avant la publication de cet article, mais nous la testerons lorsque nous y aurons accès.

OpenAI indique qu'il publie progressivement la nouvelle voix de ChatGPT pour surveiller de près son utilisation. Les personnes du groupe alpha recevront une notification dans l'application ChatGPT, suivie d'un email avec des instructions sur comment l'utiliser.

Dans les mois suivant la démonstration d'OpenAI, la société indique avoir testé les capacités vocales de GPT-4o avec plus de 100 évaluateurs externes parlant 45 langues différentes. OpenAI indique qu'un rapport sur ces efforts de sécurité sera disponible début août.

La société indique que le mode voix avancé sera limité aux quatre voix prédéfinies de ChatGPT - Juniper, Breeze, Cove et Ember - réalisées en collaboration avec des acteurs de voix payés. La voix Sky montrée dans la démo de mai d'OpenAI n'est plus disponible dans ChatGPT. La porte-parole de OpenAI, Lindsay McCallum, déclare: "ChatGPT ne peut pas imiter la voix d'autres personnes, qu'il s'agisse de particuliers ou de personnalités publiques, et bloquera les sorties qui diffèrent de l'une de ces voix prédéfinies."

OpenAI tente d'éviter les controverses liées aux deepfakes. En janvier, la technologie de clonage vocal de la startup AI ElevenLabs a été utilisée pour imiter le président Biden, trompant les électeurs lors des primaires du New Hampshire.

OpenAI indique également qu'elle a introduit de nouveaux filtres pour bloquer certaines demandes de génération de musique ou d'autres contenus audio protégés par des droits d'auteur. Au cours de la dernière année, des entreprises d'IA se sont retrouvées dans des ennuis juridiques pour violation de droits d'auteur, et des modèles audio comme GPT-4o ouvrent une toute nouvelle catégorie d'entreprises pouvant déposer une plainte. En particulier, les maisons de disques, qui ont une histoire de litiges, ont déjà poursuivi en justice les générateurs de chansons AI Suno et Udio.