Site icon Fabrice Frossard

Stream Realtime de Google AI Studio : la fin des tutoriels ?

Google AI Studio : Révolutionner l’interaction avec l’IA grâce à la multimodalité

Google AI Studio n’en finit pas d’évoluer à l’aune des évolutions des modèles de Google. Pour ceux qui seraient passé à côté, G.AI Studio est la plateforme qui permet de faire à peu près tout ce qu’il est possible avec l’IA , pour les développeurs en IA ou de simples utilisateurs. Récemment actualisée, Google Ai Studio a ajouté une fonction des plus intéressante : Stream Realtime. Une interaction avec votre écran pour répondre à une question, gratuitement…

 

Qu’est-ce que Stream Realtime ?

Stream Realtime offre une interface pour interagir avec le modèle Gemini de manière fluide et dynamique. Au lieu d’une interaction statique, vous pouvez engager une conversation en temps réel en utilisant plusieurs modalités :

Et sans doute la plus intéressante, le partage d’écran. En gros, vous lui partagez votre écran, que ce soit un tablea excel, un code python sur lequel vous bloquez ou autre, et il lui suffit de lui demander une explication pour qu’il résolve votre problème.

Rien ne vaut un bon exemple

 

Les avantages de l’approche multimodale de Google AI Studio et Gemini :

L’approche multimodale est la clé de la puissance de Stream Realtime. En combinant texte, voix, vidéo et partage d’écran, Gemini peut comprendre le contexte de manière beaucoup plus riche et fournir des réponses plus pertinentes et utiles. Voici quelques avantages concrets :

Exemples d’utilisation :

Comment interagir avec Gemini via Stream Realtime

  1. Accédez à Google AI Studio : Connectez-vous à votre compte Google et accédez à la plateforme Google AI Studio.

  2. Sélectionnez Stream Realtime : Choisissez l’option Stream Realtime dans le menu. N’oubliez pas de cocher les cases dans la colonne de droite pour bénéficier de toutes les fonctions. (code execution, function calling etc.)

  3. Sélectionnez votre mode d’interaction : Choisissez parmi texte, voix, vidéo, ou partage d’écran. Vous pouvez combiner plusieurs modes simultanément.

 

Ici, je partage un fichier Excel et à partir de là, je peux poser des questions sur le fichier ou lui demander des formules spécifiques.

 

  1. Engagez la conversation : Posez vos questions ou donnez vos instructions. N’hésitez pas à utiliser des phrases naturelles et à fournir autant de contexte que possible.

  2. Analysez la réponse : Gemini vous fournira une réponse en fonction de l’information disponible (texte, voix, vidéo, écran partagé).

  3. Itérez : Continuez à interagir pour affiner vos questions et obtenir des réponses plus précises.

 

Google AI Studio et sa fonction Stream Realtime n’est pas encore un agent, au sens par exemple d’operator d’openAI, mais pour guider l’utilisateur sur une problématique quelconque, l’outil fait le job. Concrètement, le moteur d’IA (Gemini Flash), fait une capture d’écran qu’il analyse avant de répondre. L’IA multimodale à l’oeuvre.

 

Pour accéder à Google AI Studio :https://aistudio.google.com/

Quitter la version mobile