Fabrice Frossard

Miscellanées et autres réflexions

Google AI Studio Stream Realtime

Digital Words, Outils et Techniques

Stream Realtime de Google AI Studio : la fin des tutoriels ?

Google AI Studio : Révolutionner l’interaction avec l’IA grâce à la multimodalité Google AI Studio n’en finit pas d’évoluer à l’aune des évolutions des modèles de Google. Pour ceux qui seraient passé à côté, G.AI Studio est la plateforme qui permet de faire à peu près tout ce qu’il est possible avec l’IA , pour…

Fabrice Frossard

9 février 2025

3–5 minutes

Google AI Studio : Révolutionner l’interaction avec l’IA grâce à la multimodalité

Google AI Studio n’en finit pas d’évoluer à l’aune des évolutions des modèles de Google. Pour ceux qui seraient passé à côté, G.AI Studio est la plateforme qui permet de faire à peu près tout ce qu’il est possible avec l’IA , pour les développeurs en IA ou de simples utilisateurs. Récemment actualisée, Google Ai Studio a ajouté une fonction des plus intéressante : Stream Realtime. Une interaction avec votre écran pour répondre à une question, gratuitement…

Qu’est-ce que Stream Realtime ?

Stream Realtime offre une interface pour interagir avec le modèle Gemini de manière fluide et dynamique. Au lieu d’une interaction statique, vous pouvez engager une conversation en temps réel en utilisant plusieurs modalités :

Texte : Tapez vos questions et instructions directement.
Voix : Parlez à Gemini pour une interaction plus naturelle.
Vidéo : Utilisez votre webcam pour montrer à Gemini ce que vous voyez, permettant une description contextualisée et détaillée de ce qui se passe à l’écran. Par exemple, vous pouvez lui montrer un tableau complexe et demander une explication des données.

Et sans doute la plus intéressante, le partage d’écran. En gros, vous lui partagez votre écran, que ce soit un tablea excel, un code python sur lequel vous bloquez ou autre, et il lui suffit de lui demander une explication pour qu’il résolve votre problème.

Rien ne vaut un bon exemple

youtube placeholder image

Les avantages de l’approche multimodale de Google AI Studio et Gemini :

L’approche multimodale est la clé de la puissance de Stream Realtime. En combinant texte, voix, vidéo et partage d’écran, Gemini peut comprendre le contexte de manière beaucoup plus riche et fournir des réponses plus pertinentes et utiles. Voici quelques avantages concrets :

Contexte amélioré : L’ajout de la vidéo et du partage d’écran fournit un contexte visuel crucial que le texte seul ne peut pas offrir. Exemple : Vous montrez une image satellite à Gemini et demandez “Quelles sont les zones les plus densément peuplées ?”. Gemini peut analyser l’image et répondre avec précision.
Interactions plus naturelles : La possibilité d’utiliser la voix rend l’interaction plus fluide et intuitive. Imaginez demander à Gemini de résumer un long article en utilisant votre voix, sans avoir à taper quoi que ce soit.
Explication à l’écran : La capacité de montrer à Gemini ce qui se passe à l’écran est transformative. Exemple : Vous rencontrez une erreur “404 Not Found” lors du développement web. En partageant votre écran, Gemini peut identifier le problème (mauvaise URL, serveur hors ligne, etc.) et proposer des solutions.
Applications élargies : La multimodalité débloque un potentiel immense pour de nombreuses applications, y compris le débogage de code, l’aide à la création de contenu, l’assistance à la recherche, l’analyse d’images, la conception assistée par ordinateur, et bien plus encore.

Exemples d’utilisation :

Développement web : Déboguer du code en temps réel en partageant votre écran et en posant des questions à Gemini.
Création de contenu : Demander à Gemini de générer des idées de contenu en lui montrant des images ou des exemples de travail.
Recherche : Poser des questions complexes en utilisant la voix et le partage d’écran pour fournir plus de contexte à Gemini.
Éducation : Utiliser Gemini comme tuteur interactif, en lui montrant des exercices et en lui posant des questions.

Comment interagir avec Gemini via Stream Realtime

Accédez à Google AI Studio : Connectez-vous à votre compte Google et accédez à la plateforme Google AI Studio.
Sélectionnez Stream Realtime : Choisissez l’option Stream Realtime dans le menu. N’oubliez pas de cocher les cases dans la colonne de droite pour bénéficier de toutes les fonctions. (code execution, function calling etc.)
Sélectionnez votre mode d’interaction : Choisissez parmi texte, voix, vidéo, ou partage d’écran. Vous pouvez combiner plusieurs modes simultanément.

Ici, je partage un fichier Excel et à partir de là, je peux poser des questions sur le fichier ou lui demander des formules spécifiques.

Engagez la conversation : Posez vos questions ou donnez vos instructions. N’hésitez pas à utiliser des phrases naturelles et à fournir autant de contexte que possible.
Analysez la réponse : Gemini vous fournira une réponse en fonction de l’information disponible (texte, voix, vidéo, écran partagé).
Itérez : Continuez à interagir pour affiner vos questions et obtenir des réponses plus précises.

Google AI Studio et sa fonction Stream Realtime n’est pas encore un agent, au sens par exemple d’operator d’openAI, mais pour guider l’utilisateur sur une problématique quelconque, l’outil fait le job. Concrètement, le moteur d’IA (Gemini Flash), fait une capture d’écran qu’il analyse avant de répondre. L’IA multimodale à l’oeuvre.

Pour accéder à Google AI Studio :https://aistudio.google.com/

En savoir plus sur Fabrice Frossard

Subscribe to get the latest posts sent to your email.

Laisser un commentaireAnnuler la réponse.

Trending