La promesse et les dangers des données synthétiques

Est-il possible qu'une IA soit formée uniquement sur des données générées par une autre IA? Cela pourrait sembler être une idée farfelue. Mais cela fait assez longtemps que cette idée est en circulation. Alors que de nouvelles données réelles sont de plus en plus difficiles à trouver, cette pratique gagne du terrain.

Anthropic a utilisé des données synthétiques pour former l'un de ses modèles phares, Claude 3.5 Sonnet. Meta a affiné ses modèles Llama 3.1 en utilisant des données générées par IA. Et on dit qu'OpenAI se procure des données d'entraînement synthétiques auprès de o1, son modèle de «raisonnement», pour le projet Orion à venir.

Mais pourquoi une IA a-t-elle besoin de données en premier lieu - et de quel type de données a-t-elle besoin ? Et ces données peuvent-elles vraiment être remplacées par des données synthétiques ?

L'importance des annotations

Les systèmes d'IA sont des machines statistiques. Entraînées sur de nombreux exemples, ils apprennent les schémas dans ces exemples pour faire des prédictions, comme le fait que le "à qui" dans un e-mail précède généralement "il peut concerner".

Les annotations, généralement du texte étiquetant la signification ou les parties des données que ces systèmes ingèrent, sont un élément clé de ces exemples. Elles servent de repères, "enseignant" à un modèle à distinguer entre les choses, les lieux et les idées.

Considérons un modèle de classification d'images montrant beaucoup de photos de cuisines étiquetées avec le mot "cuisine". En s'entraînant, le modèle commencera à établir des associations entre "cuisine" et les caractéristiques générales des cuisines (par exemple qu'elles contiennent des réfrigérateurs et des plans de travail). Après l'entraînement, en donnant une photo d'une cuisine qui n'était pas incluse dans les exemples initiaux, le modèle devrait être capable de l'identifier comme telle. (Bien sûr, si les photos de cuisines étaient étiquetées "vache", il les identifierait comme des vaches, ce qui souligne l'importance d'une bonne annotation.)

L'appétit pour l'IA et la nécessité de fournir des données étiquetées pour son développement ont fait exploser le marché des services d'annotation. La dimension du marché de la recherche estime qu'il vaut 838,2 millions de dollars aujourd'hui - et qu'il vaudra 10,34 milliards de dollars dans les 10 prochaines années. Alors qu'il n'y a pas d'estimations précises du nombre de personnes qui s'engagent dans le travail d'étiquetage, un document de 2022 estime ce nombre à des "millions".

Les grandes et petites entreprises s'appuient sur des travailleurs employés par des sociétés d'annotation de données pour créer des étiquettes pour les ensembles de données d'IA. Certains de ces emplois sont bien rémunérés, en particulier si l'étiquetage nécessite des connaissances spécialisées (par exemple en mathématiques). D'autres peuvent être épuisants. Les annotateurs des pays en développement sont payés en moyenne quelques dollars de l'heure, sans aucun avantage ni garantie de futurs contrats.

Un puits de données qui s'assèche

Il y a donc des raisons humanistes de rechercher des alternatives aux étiquettes générées par l'homme. Par exemple, Uber étend sa flotte de travailleurs occasionnels pour travailler sur l'annotation de l'IA et l'étiquetage des données. Mais il y a aussi des raisons pratiques.

Les humains ne peuvent étiqueter que si vite. Les annotateurs ont aussi des préjugés qui peuvent se manifester dans leurs annotations, et, par la suite, dans tout modèle formé sur elles. Les annotateurs font des erreurs, ou sont troublés par les instructions d'étiquetage. Et payer des humains pour faire des choses coûte cher.

Les données en général sont coûteuses, d'ailleurs. Shutterstock facture des dizaines de millions de dollars aux fournisseurs d'IA pour accéder à ses archives, tandis que Reddit a déjà encaissé des centaines de millions de dollars en accordant des licences de données à Google, OpenAI et à d'autres.

Enfin, les données sont également de plus en plus difficiles à acquérir.

La plupart des modèles sont formés sur de vastes collections de données publiques - données dont les propriétaires choisissent de plus en plus de cloisonner par crainte de plagiat ou parce qu'ils ne recevront pas de crédit ou d'attribution pour celles-ci. Plus de 35 % des 1000 premiers sites web mondiaux bloquent désormais le scrapeur web d'OpenAI. Et environ 25 % des données provenant de sources "de haute qualité" ont été restreintes dans les principaux ensembles de données utilisés pour former des modèles, a découvert une récente étude.

Si la tendance actuelle au blocage de l'accès se poursuit, le groupe de recherche Epoch AI prévoit que les développeurs seront à court de données pour entraîner des modèles IA génératifs entre 2026 et 2032. Cela, combiné à la crainte de poursuites pour violation du droit d'auteur et de matériaux contestables qui pourraient se retrouver dans des ensembles de données ouverts, a forcé un réveil chez les fournisseurs d'IA.

Alternatives synthétiques

À première vue, les données synthétiques sembleraient être la solution à tous ces problèmes. Besoin d'annotations ? Générez-les. Besoin de plus de données d'exemple ? Pas de problème. Tout est possible.

Et dans une certaine mesure, cela est vrai.

« Si les données sont le nouvel or, les données synthétiques se présentent comme un biocarburant, créable sans les externalités négatives de la chose réelle », a déclaré Os Keyes, doctorant à l'Université de Washington qui étudie l'impact éthique des technologies émergentes, à TechCrunch. « Vous pouvez prendre un petit ensemble de données de départ et simuler et extrapoler de nouvelles entrées à partir de celui-ci. »

L'industrie de l'IA a pris le concept et l'a exploité.

Cette année, Writer, une entreprise axée sur l'IA générative pour les entreprises, a lancé un modèle, Palmyra X 004, formé presque entièrement sur des données synthétiques. Son développement a coûté seulement 700 000 dollars, affirme Writer - par rapport à des estimations de 4,6 millions de dollars pour un modèle de taille comparable d'OpenAI.

Les modèles Phi open de Microsoft ont été formés en partie à l'aide de données synthétiques. Il en va de même pour les modèles Gemma de Google. Nvidia a dévoilé cet été une famille de modèles conçus pour générer des données d'entraînement synthétiques, et la startup en IA Hugging Face a récemment publié ce qu'elle affirme être le plus grand ensemble de données d'entraînement en texte synthétique.

La génération de données synthétiques est devenue une entreprise à part entière - une activité qui pourrait valoir 2,34 milliards de dollars en 2030. Gartner prédit que 60 % des données utilisées pour les projets d'IA et d'analytique cette année seront générées de manière synthétique.

Luca Soldaini, chercheur principal à l'Allen Institute for AI, a noté que les techniques de données synthétiques peuvent être utilisées pour générer des données d'entraînement dans un format qui n'est pas facilement obtenu par le scraping (ou même par la licence de contenu). Par exemple, en formant son générateur de vidéos Movie Gen, Meta a utilisé Llama 3 pour créer des légendes pour les séquences de la base de données d'entraînement, que les humains ont ensuite affinées pour ajouter plus de détails, comme des descriptions de l'éclairage.

Dans le même ordre d'idées, OpenAI affirme avoir affiné GPT-4o en utilisant des données synthétiques pour développer la fonctionnalité Canvas similaire à un bloc-notes pour ChatGPT. Et Amazon a déclaré qu'il génère des données synthétiques pour compléter les données du monde réel qu'il utilise pour entraîner les modèles de reconnaissance vocale pour Alexa.

« Les modèles de données synthétiques peuvent être utilisés pour rapidement étendre l'intuition humaine de quelles données sont nécessaires pour obtenir un comportement de modèle spécifique », a déclaré Soldaini.

Risques synthétiques

Cependant, les données synthétiques ne sont pas une panacée. Elles souffrent du même problème de "déchets en entrée, déchets en sortie" que toutes les IA. Les modèles produisent des données synthétiques, et si les données utilisées pour entraîner ces modèles sont biaisées et limitées, leurs résultats seront également contaminés. Par exemple, les groupes peu représentés dans les données de base le seront également dans les données synthétiques.

« Le problème, c'est qu'il y a des limites », a déclaré Keyes. « Disons que vous n'avez que 30 personnes noires dans un ensemble de données. L'extrapolation peut aider, mais si ces 30 personnes sont toutes de la classe moyenne, ou toutes à la peau claire, c'est à quoi ressembleront toutes les données ‘représentatives’.»

À ce titre, une étude de 2023 menée par des chercheurs de l'Université Rice et de Stanford a révélé qu'une dépendance excessive aux données synthétiques pendant l'entraînement peut entraîner la création de modèles dont la «qualité ou la diversité diminue progressivement». Les biais d'échantillonnage - une mauvaise représentation du monde réel - entraînent une dégradation de la diversité d'un modèle après quelques générations d'entraînement, selon les chercheurs (bien qu'ils aient également constaté qu'une petite quantité de données du monde réel mélangée aide à atténuer cela).

Keyes voit d'autres risques dans des modèles complexes comme o1 d'OpenAI, qu'il pense pourraient produire des hallucinations plus difficiles à repérer dans leurs données synthétiques. Ces hallucinations, à leur tour, pourraient réduire la précision des modèles formés sur les données - surtout si les sources des hallucinations ne sont pas faciles à identifier.

« Les modèles complexes hallucinent; les données produites par des modèles complexes contiennent des hallucinations », a ajouté Keyes. « Et avec un modèle comme o1, les développeurs eux-mêmes ne peuvent pas forcément expliquer pourquoi des artefacts apparaissent. »

La combinaison d'hallucinations peut conduire à des modèles débitant des balivernes. Une étude publiée dans la revue Nature révèle comment les modèles, formés sur des données erronées, génèrent des données encore plus erronées, et comment cette boucle de rétroaction dégrade les générations futures de modèles. Les modèles perdent leur compréhension des connaissances plus ésotériques au fil des générations, ont découvert les chercheurs - devenant plus génériques et produisant souvent des réponses sans rapport avec les questions qui leur sont posées.

Crédits image: Ilia Shumailov et al.

Une étude de suivi montre que d'autres types de modèles, comme les générateurs d'images, ne sont pas immunisés contre ce type d'effondrement :

Crédits image: Ilia Shumailov et al.

Soldaini convient que les données synthétiques «brutes» ne sont pas dignes de confiance, du moins si l'objectif est d'éviter de former des chatbots ou des générateurs d'images homogènes. Les utiliser "en toute sécurité", dit-il, nécessite un examen approfondi, une curation et un filtrage, et idéalement les associer à des données réelles fraîches - tout comme vous le feriez avec n'importe quel autre ensemble de données.

Ne pas le faire pourrait finalement conduire à un effondrement du modèle, où un modèle devient moins "créatif" - et plus biaisé - dans ses résultats, compromettant sérieusement sa fonctionnalité. Bien que ce processus puisse être identifié et arrêté avant de devenir sérieux, c'est un risque.

« Les chercheurs doivent examiner les données générées, itérer sur le processus de génération et identifier des mesures de sécurité pour supprimer les points de données de faible qualité », a déclaré Soldaini. « Les pipelines de données synthétiques ne sont pas des machines auto-améliorantes; leur sortie doit être soigneusement inspectée et améliorée avant d'être utilisée pour l'entraînement. »

Le PDG d'OpenAI, Sam Altman, a un jour soutenu que l'IA produira un jour des données synthétiques suffisamment bonnes pour se former efficacement elle-même. Mais - en supposant que cela soit même réalisable - la technologie n'existe pas encore. Aucun grand laboratoire d'IA n'a encore publié de modèle formé uniquement sur des données synthétiques.

Pour le moment du moins, il semble que nous ayons besoin d'humains quelque part dans la boucle pour nous assurer que la formation d'un modèle ne dérape pas.

TechCrunch a une newsletter axée sur l'IA! Inscrivez-vous ici pour la recevoir dans votre boîte de réception chaque mercredi.

Mise à jour: Cet article a été publié pour la première fois le 23 octobre et a été mis à jour le 24 décembre avec plus d'informations.