Runware utilise un matériel personnalisé et une orchestration avancée pour une inférence IA rapide

\

Parfois, une démonstration suffit à comprendre un produit. Et c'est le cas avec Runware. Si vous vous rendez sur le site web de Runware, saisissez une commande et appuyez sur Entrée pour générer une image, vous serez surpris de voir à quelle vitesse Runware génère l'image pour vous - cela prend moins d'une seconde.

\

Runware est un nouveau venu dans le paysage des startups en inférence IA, ou IA générative. La société construit ses propres serveurs et optimise la couche logicielle de ces serveurs pour éliminer les goulots d'étranglement et améliorer les vitesses d'inférence pour les modèles de génération d'images. La startup a déjà obtenu 3 millions de dollars de financement auprès de Speedrun de Andreessen Horowitz, Halo II de LakeStar et Lunar Ventures.

\

La société ne veut pas réinventer la roue. Elle veut simplement la faire tourner plus vite. En coulisses, Runware fabrique ses propres serveurs avec autant de GPU que possible sur la même carte mère. Elle dispose de son propre système de refroidissement sur mesure et gère ses propres centres de données.

\

En ce qui concerne l'exécution de modèles IA sur ses serveurs, Runware a optimisé la couche d'orchestration avec des optimisations BIOS et système d'exploitation pour améliorer les temps de démarrage à froid. Elle a développé ses propres algorithmes qui allouent les charges de travail d'interférence.

\

La démonstration est impressionnante en soi. Maintenant, l'entreprise souhaite utiliser tout ce travail en recherche et développement et le transformer en une entreprise.

\

Contrairement à de nombreuses entreprises d'hébergement de GPU, Runware ne va pas louer ses GPU en fonction du temps de GPU. Au lieu de cela, elle estime que les entreprises devraient être encouragées à accélérer les charges de travail. C'est pourquoi Runware propose une API de génération d'images avec une structure de frais traditionnelle par appel API. Elle est basée sur des modèles IA populaires de Flux et Stable Diffusion.

\

« Si vous regardez Together AI, Replicate, Hugging Face - tous - ils vendent des calculs basés sur le temps de GPU », a déclaré le co-fondateur et PDG Flaviu Radulescu à TechCrunch. « Si vous comparez le temps qu'il nous faut pour créer une image par rapport à eux. Et puis vous comparez les prix, vous verrez que nous sommes tellement moins chers, beaucoup plus rapides. »

\

« Il leur sera impossible d'égaler cette performance », a-t-il ajouté. « Surtout dans un fournisseur de cloud, vous devez fonctionner dans un environnement virtualisé, ce qui ajoute des retards supplémentaires. »

\

Alors que Runware examine tout le pipeline d'inférence et optimise le matériel et le logiciel, l'entreprise espère pouvoir utiliser des GPU de plusieurs fournisseurs à l'avenir. Il s'agit d'un effort important pour plusieurs startups, car Nvidia est le leader incontesté de l'espace GPU, ce qui signifie que les GPU Nvidia ont tendance à être assez chers.

\

« Pour l'instant, nous n'utilisons que des GPU Nvidia. Mais cela devrait être une abstraction de la couche logicielle », a déclaré Radulescu. « Nous pouvons charger et décharger un modèle à partir de la mémoire GPU très, très rapidement, ce qui nous permet de mettre plusieurs clients sur les mêmes GPU. »

\

« Nous ne sommes pas comme nos concurrents. Ils chargent juste un modèle dans le GPU, puis le GPU effectue un type de tâche très spécifique. Dans notre cas, nous avons développé cette solution logicielle, qui nous permet de charger et décharger un modèle dans la mémoire GPU pendant l'inférence. »

\

Si AMD et d'autres fournisseurs de GPU peuvent créer des couches de compatibilité qui fonctionnent avec des charges de travail IA typiques, Runware est bien positionnée pour construire un cloud hybride qui s'appuierait sur des GPU de plusieurs fournisseurs. Et cela aidera certainement si elle veut rester moins chère que ses concurrents en matière d'inférence IA.