
Google tente de faire sensation avec Gemini, sa suite phare de modèles, d'applications et de services d'IA générative. Mais qu'est-ce que Gemini? Comment pouvez-vous l'utiliser? Et comment se compare-t-il à d'autres outils d'IA générative tels que ChatGPT d'OpenAI, Llama de Meta et Copilot de Microsoft?
\n\nPour vous faciliter le suivi des derniers développements de Gemini, nous avons préparé ce guide pratique, que nous mettrons à jour à mesure que de nouveaux modèles Gemini, fonctionnalités et actualités sur les projets de Google pour Gemini sont publiés.
\n\nQu'est-ce que Gemini?
\n\nGemini est la famille de modèles d'IA générative de nouvelle génération de Google. Développés par les laboratoires de recherche en IA de Google, DeepMind et Google Research, ils se déclinent en plusieurs variantes:
\n\n- Gemini Ultra, un modèle très volumineux. \n\n\n\n
- Gemini Pro, un modèle large - bien que plus petit que Ultra. La dernière version, Gemini 2.0 Pro, est le fleuron actuel de Google. \n\n\n\n
- Gemini Flash, une version plus rapide et "épurée" de Pro. \n\n\n\n
- Gemini Flash-Lite, une version légèrement plus petite et plus rapide de Gemini Flash. \n\n\n\n
- Gemini Flash Thinking, un modèle avec des capacités de "raisonnement". \n\n\n\n
- Gemini Nano, deux petits modèles: Nano-1 et Nano-2, légèrement plus performant qui est destiné à fonctionner hors ligne. \n
Tous les modèles Gemini ont été formés pour être nativement multimodaux - c'est-à-dire capables de travailler avec et d'analyser plus que du simple texte. Google affirme qu'ils ont été pré-entraînés et affinés sur une variété de données audio, d'images et de vidéos publiques, propriétaires et sous licence; un ensemble de bases de code; et du texte dans différentes langues.
\n\nCela distingue les modèles Gemini des modèles tels que LaMDA de Google, qui a été formé exclusivement sur des données textuelles. LaMDA ne peut pas comprendre ou générer autre chose que du texte (par exemple, des essais, des e-mails, etc.), mais ce n'est pas nécessairement le cas avec les modèles Gemini. Par exemple, les dernières versions de Gemini Flash et Gemini Pro peuvent produire nativement des images et de l'audio en plus du texte.
\n\nNous noterons ici que l'éthique et la légalité de la formation des modèles sur des données publiques, dans certains cas sans la connaissance ou le consentement des propriétaires des données, sont floues. Google a une politique d'indemnisation liée à l'IA pour protéger certains clients de Google Cloud contre les poursuites judiciaires s'ils en font l'objet, mais cette politique comporte des exceptions. Procédez avec prudence, en particulier si vous envisagez d'utiliser Gemini à des fins commerciales.
\n\nQuelle est la différence entre les applications Gemini et les modèles Gemini?
\n\nGemini est distinct des applications Gemini sur le web et mobile (anciennement Bard).
\nLes applications Gemini sont des clients qui se connectent à divers modèles Gemini et superposent une interface semblable à un chatbot par dessus. Pensez à eux comme des interfaces frontales pour l'IA générative de Google, analogues à ChatGPT et à la famille d'applications Claude d'Anthropic.
\n\n
Sur le web, Gemini se trouve ici. Sur Android, l’application Gemini remplace l'application Google Assistant existante. Et sur iOS, les applications Google et Google Search servent de clients Gemini pour cette plate-forme.
\n\nSur Android, les utilisateurs peuvent afficher une superposition Gemini pour poser des questions sur ce qui est affiché sur leur écran (par exemple, une vidéo YouTube). Appuyer longuement sur le bouton d'alimentation d'un smartphone pris en charge ou dire "Hé Google" invoque la superposition.
\n\nLes applications Gemini peuvent accepter des images ainsi que des commandes vocales et du texte - y compris des fichiers tels que des PDF, soit téléchargés soit importés de Google Drive - et générer des images. Comme on pouvait s'y attendre, les conversations avec les applications Gemini sur mobile se poursuivent sur Gemini sur le web et vice versa si vous êtes connecté au même compte Google dans les deux endroits.
\n\nGemini avancé
\n\nLes applications Gemini ne sont pas le seul moyen de recruter l'aide des modèles Gemini pour des tâches. Peu à peu, les fonctionnalités intégrées de Gemini commencent à être intégrées aux applications et services principaux de Google comme Gmail et Google Docs.
\nPour profiter de la plupart de ces fonctionnalités, vous aurez besoin du Plan Premium AI de Google One. Techniquement une partie de Google One, le Plan Premium AI coûte 20 $ par mois et offre un accès à Gemini dans les applications Google Workspace comme Docs, Maps, Slides, Sheets, Drive et Meet. Il permet également ce que Google appelle Gemini avancé, qui apporte les modèles Gemini plus sophistiqués de l'entreprise aux applications Gemini.
\n\n
Les utilisateurs de Gemini avancé bénéficient également de quelques extras, tels que l'accès prioritaire aux nouvelles fonctionnalités et modèles; la possibilité d'exécuter et de modifier du code Python directement dans Gemini; et des limites accrues pour NotebookLM, l'outil de Google qui transforme les PDF en podcasts générés par IA. Récemment, Gemini avancé a acquis une nouvelle fonctionnalité de mémoire qui stocke les préférences des utilisateurs et permet à Gemini de se référer à d'anciennes conversations comme contexte pour les discussions en cours.
\n\nUne des exclusivités les plus convaincantes de Gemini avancé, Deep Research, exploite les modèles Gemini avec un "raisonnement avancé" pour créer des exposés détaillés. En réponse à une demande (par exemple, "Comment devrais-je refaire ma cuisine?"), Deep Research développe un plan de recherche en plusieurs étapes et explore le web pour formuler une réponse complète.
\n\nGemini dans Gmail, Docs, Chrome, outils de développement et plus encore
\n\nDans Gmail, Gemini se trouve dans un volet latéral qui peut écrire des e-mails et résumer les fils de message. Vous trouverez le même volet dans Docs, où il aide à écrire et à peaufiner le contenu et à générer de nouvelles idées. Gemini dans Slides génère des diapositives et des images personnalisées. Et Gemini dans Google Sheets suit et organise les données, créant des tableaux et des formules.
\n\nGemini se trouve dans Google Maps, où il peut agréger les avis sur les entreprises locales et offrir des recommandations comme comment passer une journée à visiter une ville étrangère. La portée du chatbot s'étend également à Drive, où il peut résumer les fichiers et dossiers et donner des informations rapides sur un projet.
\n\n
Gemini est récemment arrivé dans le navigateur Chrome de Google sous la forme d'un outil d'écriture IA. Vous pouvez l'utiliser pour rédiger quelque chose de complètement nouveau ou réécrire du texte existant; Google affirme qu'il tiendra compte de la page web sur laquelle vous vous trouvez pour faire des recommandations.
\n\nPar ailleurs, vous trouverez des indices de Gemini dans les produits de base de données de Google, les outils de sécurité cloud et les plateformes de développement d'applications (y compris Firebase et Project IDX), ainsi que dans des applications comme Google Photos (où Gemini gère les requêtes de recherche en langage naturel), YouTube (où il aide à trouver des idées de vidéos), et Meet (où il traduit les sous-titres).
\n\nCode Assist (anciennement Duet AI for Developers), la suite d'outils d'assistance alimentée par l'IA de Google pour la complétion et la génération de code, décharge une partie du travail computationnel lourd vers Gemini. De même, les produits de sécurité de Google soutenus par Gemini, comme Gemini in Threat Intelligence, qui analyse de larges portions de code potentiellement malveillant et permet aux utilisateurs d'effectuer des recherches en langage naturel sur les menaces en cours ou les indicateurs de compromission.
\n\nExtensions Gemini et Gems
\n\nLes utilisateurs avancés de Gemini peuvent créer des Gems, des chatbots personnalisés sur ordinateur et mobile alimentés par des modèles Gemini. Les Gems peuvent être générés à partir de descriptions en langage naturel - par exemple, \"Tu es mon coach de course. Donne-moi un plan de course quotidien\" - et partagés avec d'autres utilisateurs ou conservés privés.
\n\n
Les applications Gemini peuvent se connecter aux services Google via ce que Google appelle les \"extensions Gemini\". Gemini s'intègre avec Drive, Gmail, YouTube, et d'autres pour répondre à des requêtes telles que \"Pourrais-tu résumer mes trois derniers e-mails?\"
\n\nChats vocaux approfondis en direct de Gemini
\n\nUne expérience appelée Gemini Live permet aux utilisateurs d'avoir des chats vocaux \"approfondis\" avec Gemini. Il est disponible dans les applications Gemini sur mobile et les Pixel Buds Pro 2, où il peut être accédé même lorsque votre téléphone est verrouillé.
\n\n
Avec Gemini Live activé, vous pouvez interrompre Gemini pendant que le chatbot parle pour poser une question de clarification, il s'adaptera à vos habitudes de parole en temps réel. Live est également conçu pour servir de coach virtuel, vous aidant à vous entraîner pour des événements, à brainstormer des idées, etc. Par exemple, Live peut suggérer quelles compétences mettre en avant lors d'un entretien d'embauche à venir et donner des conseils pour parler en public.
\n\nVous pouvez lire notre critique de Gemini Live ici.
\n\nGemini pour les adolescents
\n\nGoogle propose une expérience Gemini axée sur les adolescents pour les étudiants.
\n\nLe Gemini axé sur les adolescents offre des \"politiques et des garanties supplémentaires\", y compris un processus d'accueil personnalisé et un guide de littératie en IA. Sinon, il est presque identique à l'expérience standard de Gemini, jusqu'à la fonctionnalité \"double vérification\" qui examine le web pour voir si les réponses de Gemini sont correctes.
\n\nQue peuvent faire les modèles Gemini?
\n\nÉtant des modèles multimodaux, les modèles Gemini peuvent effectuer toute une gamme de tâches multimodales, de la transcription de la parole à la légende des images et des vidéos en temps réel. Beaucoup de ces fonctionnalités sont arrivées à un stade de produit, et Google promet beaucoup plus dans un avenir proche.
\n\nBien sûr, Google n'offre pas de solution à certains des problèmes sous-jacents de la technologie d'IA générative aujourd'hui, comme ses biais encodés et sa propension à inventer des choses (c'est-à-dire halluciner). Ses concurrents non plus, mais c'est quelque chose à garder à l'esprit lorsque vous envisagez d'utiliser ou de payer pour Gemini.
\n\nCapacités de Gemini Pro
\n\nGoogle dit que son dernier Pro modèle, Gemini 2.0 Pro, est son meilleur pour le codage et les instructions complexes. 2.0 Pro surpasse son prédécesseur, Gemini 1.5 Pro, dans des tests mesurant la programmation, le raisonnement, les mathématiques et la précision factuelle.
\n\nDans la plateforme Vertex AI de Google, les développeurs peuvent personnaliser Gemini Pro pour des contextes et des cas d'utilisation spécifiques via un processus de fine-tuning ou de \"grounding\". Par exemple, Pro (ainsi que d'autres modèles Gemini) peut être instruit d'utiliser des données de fournisseurs tiers comme Moody's, Thomson Reuters, ZoomInfo et MSCI, ou de source d'informations à partir de jeux de données d'entreprise ou de Google Search au lieu de sa base de connaissances plus large. Gemini Pro peut également être connecté à des API externes de tierces parties pour effectuer des actions particulières, comme automatiser un flux de travail de back-office.
\n\nLa plateforme AI Studio de Google propose des modèles pour la création de directives structurées avec Pro. Les développeurs peuvent contrôler la plage créative du modèle et fournir des exemples pour donner des instructions de ton et de style - et également régler les paramètres de sécurité de Pro.
\n\nGemini Flash est léger, tandis que Gemini Flash Thinking ajoute du raisonnement
\n\nGemini 2.0 Flash, qui peut utiliser des outils comme Google Search et interagir avec des API externes, surpasse certains des plus grands modèles Gemini 1.5 sur des tests mesurant la programmation et l'analyse d'images. Dérivé de Gemini Pro, Flash est petit et efficace - construit pour des charges de travail d'IA générative étroites et à haute fréquence.
\n\nGoogle affirme que Flash est particulièrement bien adapté pour des tâches comme la résumé et les applications de chat, ainsi que la légende d'images et de vidéos et l'extraction de données à partir de longs documents et tables. Pendant ce temps, Gemini 2.0 Flash-Lite, une version plus compacte de Flash, surpasse Gemini 1.5 Flash mais fonctionne au même prix et à la même vitesse, selon Google.
\n\nEn décembre dernier, Google a sorti une version \"réfléchie\" de Gemini 2.0 Flash capable de \"raisonner\". Le modèle d'IA prend quelques secondes pour réfléchir à un problème avant de donner une réponse, ce qui peut améliorer sa fiabilité.
\n\nGemini Nano peut fonctionner sur votre téléphone
\n\nGemini Nano est une version miniature de Gemini suffisamment efficace pour fonctionner directement sur (certains) appareils au lieu d'envoyer la tâche vers un serveur quelque part. Jusqu'à présent, Nano alimente quelques fonctionnalités sur le Pixel 8 Pro, le Pixel 8, le Pixel 9 Pro, le Pixel 9 et le Samsung Galaxy S24, y compris Résumé dans Recorder et Réponse intelligente dans Gboard.
\n\nL'application Recorder, qui permet aux utilisateurs d'appuyer sur un bouton pour enregistrer et transcrire de l'audio, inclut un résumé alimenté par Gemini de conversations enregistrées, d'entretiens, de présentations et d'autres extraits audio. Les utilisateurs obtiennent des résumés même s'ils n'ont pas de signal ou de connexion Wi-Fi - et en clin d'œil à la confidentialité, aucune donnée ne quitte leur téléphone dans ce processus.
\n\n
Nano est également dans Gboard, le remplacement du cl