Cloud Blog – Google Cloud – Gemini Omni : l’Avènement du modèle du monde

Bienvenue dans notre série d’articles dédiée à Google I/O ’26

Google Antigravity 2.0 : Concevoir des logiciels avec des systèmes multi-agents 01

Au cœur de Gemini Spark : l’agent permanent de Google 02

Gemini Omni : l’Avènement du modèle du monde 03

Google Cloud 23.06.2026

Gemini Omni : l’Avènement du modèle du monde

Les fondements des modèles du monde et la quête de l’AGI
Multimodalité et raisonnement scientifique
L’ère du « Nano Banana pour la vidéo » et du montage conversationnel
Des flux de travail créatifs concrets dans l’application Gemini
Manipulation vidéo avancée dans Google Flow
Genie 3 : La maîtrise des environnements interactifs et de la dynamique des fluides
Disponibilité, intégration à l’écosystème et l’« Omni Mercial »
Ce que Gemini Omni change pour les équipes métier
Le chemin vers l’intelligence artificielle générale

Lors de Google I/O ’26, Demis Hassabis, PDG de Google DeepMind, est monté sur scène pour présenter Gemini Omni, et l’annonce n’avait rien d’un lancement produit classique. Il ne s’agissait ni d’un modèle plus rapide ni d’une nouvelle interface. C’était une catégorie d’IA entièrement différente.

Omni est ce que les chercheurs appellent un « modèle du monde » (world model) : un système qui ne se contente pas de prédire du texte ou de générer des images statiques, mais qui comprend et simule activement le fonctionnement de la réalité. Demis Hassabis l’a présenté comme une étape décisive vers l’intelligence artificielle générale (AGI), qu’il estime désormais à seulement quelques années de distance.

Les fondations qui sont posées ici — une IA capable de raisonner sur la physique, les relations spatiales et la dynamique du monde réel — sont précisément ce qui rendra possibles aussi bien la robotique avancée que des assistants IA véritablement proactifs.

En tant que partenaire Google Cloud de niveau Premier à l’échelle mondiale, nous suivons cette évolution avec une attention toute particulière. Vous devriez en faire de même.

Les fondements des modèles du monde et la quête de l’AGI

Pour comprendre ce qui distingue Omni, il faut d’abord comprendre ce que les modèles d’IA précédents savaient faire… et ce qu’ils ne savaient pas faire.

Les grands modèles de langage excellent dans leur domaine. Donnez-leur du texte et ils le traiteront ou le généreront à un niveau qui continue de surprendre. Mais le texte n’est qu’une partie du problème. Un véritable modèle du monde doit comprendre la physique, les relations spatiales et la manière dont les objets se comportent réellement dans un environnement. C’est un défi totalement différent, et la simple prédiction du prochain token ne permet pas d’y répondre.

Gemini Omni y parvient en combinant l’intelligence multimodale native de l’architecture Gemini avec les meilleurs modèles génératifs de médias développés par Google. Avant Omni, Google avait déjà créé plusieurs outils spécialisés particulièrement performants, comme Veo pour la génération vidéo, Nano Banana pour la création et la retouche d’images, ou encore Genie pour les simulations interactives.

Chacun de ces modèles laissait déjà entrevoir une certaine compréhension du monde physique et de ses mécanismes. Mais Omni va beaucoup plus loin. Il est capable de simuler des concepts physiques complexes tels que l’énergie cinétique, la gravité ou encore la dynamique des fluides avec un niveau de précision inaccessible aux générations précédentes de systèmes génératifs.

Et comme il a été conçu dès le départ comme un système nativement multimodal, son ambition a toujours été particulièrement élevée : produire n’importe quel type de sortie à partir de n’importe quel type d’entrée. La voie choisie était plus difficile. Mais selon les équipes de DeepMind, cet investissement architectural commence aujourd’hui à porter pleinement ses fruits.

Multimodalité et raisonnement scientifique

L’une des capacités les plus impressionnantes d’Omni réside dans son aptitude à associer une rigueur scientifique authentique à une véritable créativité visuelle. Grâce à la profondeur des connaissances de Gemini et à ses capacités de raisonnement, le modèle peut transformer des concepts scientifiques abstraits ou complexes en vidéos à la fois exactes et visuellement stylisées.

La démonstration présentée lors de la keynote l’a illustré avec une consigne apparemment simple : « Réalise une vidéo explicative en animation pâte à modeler sur le repliement des protéines. » C’est précisément le type de demande qui révèle rapidement les limites de la plupart des systèmes d’IA. Un générateur vidéo classique aurait du mal à respecter l’exactitude scientifique nécessaire. Un modèle de langage, lui, serait incapable de produire les visuels.

Gemini Omni a réussi les deux. Le modèle a généré une vidéo pédagogique rigoureuse montrant comment les protéines commencent sous forme de chaînes d’acides aminés avant de se replier progressivement selon des structures complexes — hélices alpha, feuillets bêta — jusqu’à former une structure tridimensionnelle fonctionnelle.

Et il a accompli tout cela dans un style d’animation en pâte à modeler, sans jamais sacrifier la précision scientifique. Pour les enseignants, les formateurs et les spécialistes de la vulgarisation scientifique, cette combinaison entre exactitude et créativité ouvre un territoire entièrement nouveau.

L’ère du « Nano Banana pour la vidéo » et du montage conversationnel

Le modèle Nano Banana de Google a profondément transformé la retouche d’images. Omni s’apprête à produire le même effet dans l’univers de la vidéo. D’ailleurs, les responsables produits de Google l’ont affirmé explicitement lors de la keynote, qualifiant Omni de véritable « moment Nano Banana pour la vidéo ».

D’un point de vue technologique, on pourrait le considérer comme un Veo++ : les capacités de génération vidéo de Veo combinées à un raisonnement avancé et à un système de montage piloté en langage naturel au sein d’une seule plateforme.

C’est précisément l’expérience de montage qui devient particulièrement intéressante pour la plupart des utilisateurs.

Au lieu de travailler dans une interface complexe reposant sur des timelines et des nœuds de montage, vous discutez simplement avec le modèle. Vous importez vos propres vidéos et vous décrivez ce que vous souhaitez modifier. Demis Hassabis en a donné un exemple frappant avec une vidéo selfie dans laquelle un simple cercle dessiné par l’utilisateur a été transformé à l’écran en un trou noir respectant les lois de la physique.

Dans une autre démonstration, une simple vidéo de promenade en soirée a été enrichie d’éléments environnementaux entièrement nouveaux qui ont complètement transformé l’ambiance de la scène.

La démonstration destinée aux développeurs l’a montré de manière encore plus spectaculaire : une séquence d’introduction de podcast montrait plusieurs personnes en train de discuter pendant qu’un chat et une plante flottaient dans les airs.

Absurde ? Complètement. Mais c’était précisément le but. Omni parvenait à fusionner des éléments radicalement différents au sein d’un flux vidéo unique, cohérent et réaliste. L’un des développeurs a expliqué que c’était à ce moment-là qu’il avait réellement compris l’ampleur des capacités du modèle. Avec Omni, n’importe quelle vidéo peut devenir le point de départ d’une création totalement nouvelle.

Des flux de travail créatifs concrets dans l’application Gemini

Gemini Omni est désormais intégré directement dans la nouvelle application Gemini et est disponible dès aujourd’hui pour les abonnés Google AI Plus, Pro et Ultra dans le monde entier. Vous pouvez importer simultanément du texte, des images et des vidéos, puis les utiliser ensemble au sein d’un même flux de travail créatif.

La keynote a illustré cette approche à travers l’exemple d’une musicienne nommée Sashu. Elle travaillait sur un nouveau morceau et souhaitait créer rapidement un teaser vidéo destiné à ses fans. Elle a importé des séquences brutes d’elle-même en train de marcher, ajouté quelques images de référence pour indiquer le style visuel recherché, puis utilisé Omni dans l’application afin de transformer l’ensemble à l’aide de quelques instructions conversationnelles.

Les résultats ont été remarquables. Omni a modifié le style visuel de la séquence, et Sashu a même pu lui demander de transformer le point de vue en un plan panoramique à 360 degrés. Et il faut souligner qu’une telle opération nécessiterait normalement un équipement spécialisé, une équipe de tournage dédiée et un important travail de postproduction.

Tout au long du processus, Omni a conservé la cohérence physique de ses mouvements ainsi que le rythme et l’atmosphère de la performance originale.

L’apparence visuelle a changé. L’élément humain, lui, est resté intact.

Prochainement, Omni sera également disponible dans Gemini Enterprise sous forme d’API.

Manipulation vidéo avancée dans Google Flow

Les créateurs professionnels qui utilisent Google Flow — la plateforme dédiée de Google aux artistes, réalisateurs et musiciens — ont désormais accès aux mêmes capacités Omni avec un niveau de contrôle encore plus poussé.

Une vidéo brute en entrée. Une scène finalisée en sortie. Sans perdre ce qui faisait la valeur de l’original. C’est exactement ce que la démonstration de Flow a montré. Une personne marchait dans une scène que le créateur souhaitait conserver intacte. Une simple consigne accompagnée d’une référence stylistique a permis à Omni de transformer l’environnement tout autour du sujet et d’y intégrer des effets visuels complexes. Le modèle a séparé avec précision le sujet du reste de la scène tout en préservant l’essence de la prise de vue originale.

Les utilisateurs de Flow peuvent également ajouter des personnages entièrement générés par IA à des scènes existantes, tout en maintenant une parfaite cohérence avec l’environnement. Et le niveau de compréhension contextuelle dont fait preuve Omni lors de modifications complexes mérite d’être souligné.

Demandez-lui de transformer une scène filmée au petit matin en une scène de nuit. Il ne se contentera pas d’assombrir le ciel. Il allumera les phares des véhicules et simulera la manière dont leur lumière éclaire de façon réaliste les particules de poussière présentes dans l’air. Nous parlons ici de simulation physique de l’éclairage, et non d’un simple ajustement de couleurs.

Les utilisateurs de Flow peuvent également exploiter les modèles Omni pour créer leurs propres outils créatifs adaptés à leurs processus de production, en programmant à l’instinct (ou en « vibe-codant ») leurs propres utilitaires de production directement par-dessus le modèle.

Genie 3 : La maîtrise des environnements interactifs et de la dynamique des fluides

Derrière les capacités de compréhension du monde d’Omni se trouve Genie 3, un modèle du monde spécialisé qui fournit à l’IA une compréhension approfondie du comportement réel des objets et des environnements. C’est ce qui explique pourquoi la cohérence vidéo d’Omni surpasse nettement celle des générations précédentes.

Gemini Omni ne génère pas simplement des pixels qui paraissent statistiquement plausibles. Il génère des scènes à partir d’un modèle sous-jacent décrivant le fonctionnement du monde physique : gravité, quantité de mouvement, transport de la lumière et comportement des fluides.

La démonstration de Genie 3 en a fourni une illustration spectaculaire. Un utilisateur a demandé la création d’une « zone paisible de falaises et de cascades avec une physique de l’eau dynamique », tout en introduisant un avion en papier à grande vitesse comme personnage principal contrôlable.

L’environnement généré pouvait ensuite être exploré en temps réel à l’aide des flèches du clavier. Lorsque l’avion traversait les projections d’eau de la cascade, les fluides réagissaient de manière réaliste. Les reflets lumineux sur la surface de la rivière évoluaient dynamiquement au passage de l’avion. Il ne s’agissait pas d’une vidéo pré-calculée. C’était une simulation physique en temps réel au sein d’un monde entièrement généré.

Genie 3 est disponible dès aujourd’hui pour les abonnés Google AI Ultra.

Disponibilité, intégration à l’écosystème et l’« Omni Mercial »

Compte tenu de la puissance de calcul nécessaire à l’exécution de modèles du monde, Google déploie Omni progressivement. Gemini Omni Flash est disponible dès aujourd’hui dans l’ensemble de l’écosystème Google, apportant immédiatement aux utilisateurs les capacités de compréhension du monde, la multimodalité et le montage vidéo conversationnel.

Le fait de commencer par la vidéo — historiquement la modalité la plus complexe à maîtriser — indique clairement la direction poursuivie : créer un modèle capable de générer n’importe quelle sortie à partir de n’importe quelle entrée sans dégradation de qualité.

Google a également confirmé que Gemini Omni Pro est actuellement en cours de développement. Davantage d’informations concernant ses capacités professionnelles seront communiquées prochainement.

Pour célébrer ce lancement et permettre aux développeurs de prendre immédiatement l’outil en main, Google a installé un espace baptisé « Omni Mercial » dans la zone de démonstration du Google I/O ’26. Les participants pouvaient y créer et interpréter leurs propres publicités de qualité professionnelle générées par Omni.

Au-delà de l’aspect ludique, cette démonstration visait surtout à montrer que la production vidéo professionnelle n’est plus réservée aux grands studios.

Ce que Gemini Omni change pour les équipes métier

La plupart des discussions autour des modèles du monde se concentrent sur les réalisateurs et les artistes numériques. Et c’est parfaitement compréhensible. Mais savez-vous quelles sont les équipes qui ont le plus à gagner dès aujourd’hui ?

Le responsable marketing qui doit adapter une même campagne à six marchés différents, chacun avec sa langue, son ton et ses références culturelles.
Le commercial qui s’apprête à présenter une démonstration qui n’a pas été conçue pour ce prospect particulier, et dont tout le monde perçoit immédiatement le décalage.
Le responsable Customer Success dont les vidéos d’onboarding sont devenues si obsolètes qu’elles risquent davantage de nuire à l’expérience client que de l’améliorer.

À quoi ressemble aujourd’hui un cycle de production classique ? Vous rédigez un brief à destination d’une agence ou d’une équipe interne. Vous attendez. Vous multipliez les cycles de validation. Puis vous publiez un contenu qui est déjà légèrement dépassé au moment même où il est mis en ligne. Pour les organisations qui gèrent plusieurs marchés, produits et segments de clientèle, cela représente bien plus qu’une simple contrainte.

C’est précisément là qu’Omni intervient. Quelques instructions conversationnelles suffisent pour produire des contenus aboutis, stylisés et exploitables. Aucune compétence en montage n’est requise. Aucune file d’attente non plus. Et surtout, la fonctionnalité est déjà intégrée à Gemini, au sein du même environnement Google Workspace que vos équipes utilisent chaque jour. Aucun nouveau déploiement. Aucun programme de formation à mettre en place.

La capacité est déjà là. Vous conservez la direction créative.

L’exécution n’a plus besoin de mobiliser les mêmes ressources. Et cela change beaucoup de choses. Lorsqu’essayer un nouvel angle de caméra ou un nouveau style visuel ne coûte plus qu’une simple phrase au lieu d’une heure de travail, vous expérimentez davantage. Vous identifiez plus rapidement ce qui fonctionne. C’est là que se situe le véritable avantage concurrentiel.

Les organisations qui adopteront ces outils les premières produiront davantage de contenus, les diffuseront plus rapidement et avec une fraction des coûts qu’elles supportent aujourd’hui. Et cet avantage s’accumule très vite.

Le chemin vers l’intelligence artificielle générale

Gemini Omni est un lancement technologique. Mais Demis Hassabis a été très clair sur la vision beaucoup plus large dans laquelle il s’inscrit.

Selon lui, le développement de modèles capables de comprendre et de simuler véritablement le monde physique constitue une condition indispensable à l’émergence de l’AGI. À mesure que les systèmes d’IA deviennent plus autonomes — gestion d’agendas, robots opérant dans le monde réel ou prise de décisions concrètes — ils doivent disposer d’une représentation fonctionnelle du monde qui les entoure.

Un système incapable de raisonner sur la gravité, la quantité de mouvement ou le comportement des objets dans l’espace n’est tout simplement pas prêt pour cela.

C’est précisément ce que permet Omni. La simulation de la réalité devient la base qui rend tout le reste possible. L’ère nativement IA n’est plus une vision inscrite sur une feuille de route. Elle est déjà présente dans l’application.

Omni crée à partir de tout. Gemini propulse le reste. Avec Omni, la création vidéo devient aussi naturelle qu’une conversation. Gemini étend cette même intelligence à l’ensemble des outils Workspace sur lesquels vos équipes s’appuient chaque jour. Cloudfresh veille à ce que votre organisation soit prête à tirer pleinement parti de cette transformation. Découvrir nos services de conseil et de formation Gemini →