Cloud blog – Google Cloud – Gemini Omni: Přichází model světa

Vítejte u speciální série článků ke Google I/O ’26

Google Antigravity 2.0: Architektura softwaru pomocí multiagentních systémů 01

Pohled pod kapotu Gemini Spark: Neustále aktivní agent od Googlu 02

Gemini Omni: Přichází model světa 03

Google Cloud 23.06.2026

Gemini Omni: Přichází model světa

Základy modelů světa a honba za AGI
Multimodalita a vědecké uvažování
Éra „Nano Banana pro video“ a konverzační úpravy
Kreativní procesy z reálného světa v aplikaci Gemini
Pokročilá manipulace s videem v Google Flow
Genie 3: Ovládnutí interaktivního prostředí a dynamiky tekutin
Dostupnost, integrace do ekosystému a Omni Mercial
Co Gemini Omni znamená pro firemní týmy
Cesta k obecné umělé inteligenci

Na konferenci Google I/O ’26 vystoupil na pódium generální ředitel Google DeepMind Demis Hassabis, aby představil Gemini Omni — a toto oznámení rezonovalo úplně jinak než běžné produktové premiéry. Nešlo o rychlejší model ani o nové uživatelské rozhraní. Jednalo se o zcela odlišný druh umělé inteligence.

Omni je to, co výzkumníci nazývají „modelem světa“ (world model). Tedy systém, který nepředpovídá text ani negeneruje statické obrázky, ale aktivně chápe a simuluje fungování reality. Hassabis jej označil za zásadní milník na cestě k obecné umělé inteligenci (AGI), od níž nás podle jeho slov dělí už jen několik let.

Základy, které zde Google pokládá — AI schopná uvažovat o fyzice, prostorových vztazích a dynamice reálného světa —, umožní vše od pokročilé robotiky až po skutečně proaktivní AI asistenty.

Jako globální Google Cloud partner úrovně Premier tento vývoj bedlivě sledujeme. A vy byste měli také.

Základy modelů světa a honba za AGI

Abyste pochopili, v čem je Omni jiný, musíte si uvědomit, co předchozí AI modely dokázaly a co už ne.

Velké jazykové modely (LLM) jsou ve své disciplíně opravdu dobré. Když jim předložíte text, zpracují ho a vygenerují na úrovni, která lidi stále dokáže zaskočit. Text je ale jen střípek z celkové mozaiky. Skutečný model světa musí rozumět fyzice, prostorovým vztahům a tomu, jak se objekty v prostředí reálně chovají. To je úplně jiná disciplína, ke které vás pouhé předpovídání dalšího tokenu nedovede.

Gemini Omni toho dosahuje spojením nativní multimodální inteligence architektury Gemini s nejlepšími generativními mediálními modely od Googlu. Před Omni už Google vytvořil několik schopných specializovaných nástrojů, jako je Veo pro generování videa, Nano Banana pro generování a úpravu obrázků nebo Genie pro interaktivní simulace.

Každý z nich nabídl záblesky vnímání fyziky a chápání světa. Ale Omni dokáže simulovat složité fyzikální koncepty jako kinetickou energii, gravitaci a dynamiku tekutin s přesností, které se předchozí generativní systémy nemohly ani přiblížit.

A protože byl model od samého začátku navržen jako nativně multimodální, cíl byl vždy ambiciózní: vygenerovat jakýkoli výstup z jakéhokoli vstupu. Byla to sice náročnější cesta, ale podle týmu DeepMind se tato investice do architektury bohatě vyplácí.

Multimodalita a vědecké uvažování

Jednou z nejpůsobivějších schopností Omni je propojení přísné vědecké přesnosti s vizuální kreativitou. Vzhledem k tomu, že model čerpá z hlubokých znalostí a analytických schopností Gemini, dokáže vzít abstraktní nebo složité vědecké koncepty a proměnit je v přesná, stylizovaná videa.

Demo během úvodní přednášky to ukázalo na zdánlivě jednoduchém zadání: „Vytvoř animované video z plastelíny vysvětlující sbalování proteinů.“ To je požadavek, na kterém většina AI systémů pohoří. Standardní model pro generování videa by zápasil s potřebnou vědeckou přesností. Textový model zase nedokáže vytvořit vizuální stránku.

Gemini Omni zvládlo obojí. Vytvořilo přesné vzdělávací video, které diváka provede procesem, jak proteiny začínají jako řetězce aminokyselin a skládají se do složitých struktur — alfa-helixu, plochých částí zvaných beta-skládané listy —, dokud nevytvoří funkční trojrozměrný tvar.

A to všechno zvládlo ve stylu plastelínové animace, aniž by utrpěla vědecká podstata věci. Pro pedagogy a popularizátory vědy představuje tato kombinace přesnosti a kreativního zpracování naprosto novou dimenzi možností.

Éra „Nano Banana pro video“ a konverzační úpravy

Model Nano Banana od Googlu od základů změnil způsob úpravy obrázků. Omni se chystá udělat totéž pro video. Produktoví lídři Googlu to během keynote řekli na rovinu a Omni výslovně označili za moment „Nano Banana pro video“.

Z pohledu vývoje si ho představte jako Veo++: syrové schopnosti generování videa modelu Veo, spojené s hlubokým kognitivním uvažováním a úpravami pomocí přirozeného jazyka v jednom systému.

Pro většinu uživatelů jsou nejzajímavější právě možnosti úprav. Místo složité práce na časové ose plné uzlů s vysokými nároky na učení s modelem jednoduše mluvíte. Nahrajete vlastní záběry a popíšete, co chcete změnit. Demis Hassabis to demonstroval na selfie videu, kde se kruh nakreslený uživatelem proměnil ve fyzikálně přesnou černou díru na obrazovce.

V jiném příkladu se obyčejné video z večerní procházky proměnilo díky zcela novým prvkům prostředí, které kompletně změnily atmosféru celé scény.

Ukázka na vývojářském panelu to jen potvrdila. Úvodní klip k podcastu, skupina mluvících lidí — a kolem scény létá kočka a rostlina. Absurdní? Zcela. Ale přesně o to šlo. Omni poskládalo divoce odlišné prvky do jediného, soudržného a realistického video streamu. Jeden z vývojářů zmínil, že právě v tomto momentu mu plný potenciál modelu konečně došel. Jakékoli video se stává výchozím bodem pro něco naprosto nového.

Kreativní procesy z reálného světa v aplikaci Gemini

Model Gemini Omni je nyní integrován přímo do přepracované aplikace Gemini a je od dnešního dne k dispozici předplatitelům tarifů Google AI Plus, Pro a Ultra po celém světě. Do aplikace můžete nahrát jakoukoli kombinaci textu, obrázků a videa a pracovat s nimi společně v rámci jednoho projektu.

Hlavní prezentace ukázala, jak to vypadá v praxi na příběhu hudebnice Sashu. Pracovala na nové písni a chtěla rychle vytvořit video teaser pro své fanoušky. Nahrála syrové záběry, na kterých jde pěšky, přidala několik referenčních obrázků pro naznačení vizuálního stylu a pomocí Omni v aplikaci celou scénu transformovala prostřednictvím několika textových pokynů.

Výsledky byly ohromující. Omni změnilo vizuální styl záběrů a Sashu dokonce mohla model požádat, aby změnil úhel kamery na plný 360stupňový panoramatický záběr. To by mimochodem normálně vyžadovalo specializované kamerové vybavení, dedikovaný štáb a rozsáhlou postprodukční práci.

Během celého procesu Omni udržovalo fyziku jejího pohybu přesnou a zachovalo tempo i atmosféru původního vystoupení. Vizuální vrstva se změnila, ale lidský prvek pod ní zůstal netknutý.

Brzy se Omni objeví také v Gemini Enterprise jako nástroj dostupný přes API.

Pokročilá manipulace s videem v Google Flow

Profesionální tvůrci pracující v Google Flow — specializované platformě Googlu pro umělce vytvářející obrázky, filmy a hudbu — mají nyní přístup ke stejným schopnostem Omni, ovšem s mnohem detailnější kontrolou.

Vložíte syrové záběry, získáte hotovou scénu, aniž byste přišli o to, kvůli čemu stálo za to původní materiál natáčet. Přesně to ukázalo demo Flow. Kráčející člověk, jehož herecký výkon nechtěl tvůrce měnit. Pomocí promptu a stylové reference dostalo Omni pokyn přepracovat okolní prostředí a doplnit složité vizuální efekty. Model přesně oddělil objekt od všeho ostatního a podstata záběru zůstala zachována.

Uživatelé Flow mohou do stávajících scén přidávat i zcela nové postavy vygenerované pomocí AI, přičemž model udržuje konzistenci se vším ostatním v prostředí. Za zvláštní zmínku stojí úroveň kontextového vnímání, kterou Omni do rozsáhlých úprav přináší.

Když model požádáte, aby změnil scénu z brzkého rána na pozdní noc, neztmaví jen oblohu. Rozsvítí světlomety vozidla a nasimuluje způsob, jakým tato světla realisticky ozařují prachové částice ve vzduchu. To je čistá fyzika světla v praxi, žádné základní barvení videa.

Uživatelé platformy Flow mohou modely poháněné technologií Omni využít také k vytváření vlastních kreativních nástrojů přizpůsobených jejich specifickým pracovním postupům — v podstatě si tak mohou nad modelem naprogramovat vlastní produkční utility na základě přirozeného jazyka.

Genie 3: Ovládnutí interaktivního prostředí a dynamiky tekutin

Za schopností Omni rozumět světu stojí Genie 3, specializovaný model světa, který dává umělé inteligenci pevný základ v tom, jak se objekty a prostředí skutečně chovají. Právě díky tomu je kontinuita a soudržnost videa v Omni znatelně lepší než u předchozích generací.

Gemini Omni negeneruje pixely, které pouze statisticky vypadají správně. Generuje scény na základě interního modelu toho, jak funguje fyzický svět — gravitace, hybnost, šíření světla nebo chování tekutin.

Demo Genie 3 to předvedlo v plné parádě. Uživatel zadal modelu pokyn, aby vygeneroval „klidnou oblast s vodopádem a útesem s dynamickou fyzikou vody“, a zavedl rychlou papírovou vlaštovku jako hlavní hratelnou postavu.

Vygenerovaným prostředím pak bylo možné procházet v reálném čase pomocí šipek na klávesnici. Když uživatel prolétal s vlaštovkou scénou a ta interagovala s kapkami vodopádu, dynamika tekutin reagovala naprosto přesně. Světlo odrážející se od hladiny řeky se dynamicky měnilo, jakmile vlaštovka proletěla nad ní. Jednalo se o fyzikální simulaci v reálném čase uvnitř vygenerovaného světa, nikoli o předem vyrenderovaný klip.

Model Genie 3 je od dnešního dne k dispozici pro předplatitele Google AI Ultra.

Dostupnost, integrace do ekosystému a Omni Mercial

Vzhledem k výpočetní náročnosti provozu modelů světa nasazuje Google Omni velmi opatrně. Gemini Omni Flash je od dnešního dne k dispozici napříč produktovou sadou Google a přináší uživatelům schopnosti chápání světa, multimodality a konverzačních úprav videa již nyní.

Začít s videem — historicky nejnáročnější modalitou — jasně ukazuje směr: cílem je model, který dokáže vygenerovat jakýkoli výstup z jakéhokoli vstupu bez jakéhokoli snížení kvality.

Google také potvrdil, že aktivně vyvíjí Gemini Omni Pro. Další podrobnosti o jeho profesionálních funkcích představí již brzy.

Aby Google oslavil uvedení na trh a umožnil vývojářům okamžitě si technologii osahat, postavil v ukázkové zóně na konferenci I/O ‘26 speciální stánek „Omni Mercial“. Návštěvníci si zde mohli vyzkoušet Omni na vlastní kůži a nechat se obsadit do vlastních vygenerovaných reklam ve vysoké kvalitě.

Kromě zábavné atrakce to jasně dokázalo, že generování videa v profesionální kvalitě už není výsadou špičkových studií.

Co Gemini Omni znamená pro firemní týmy

Většina debat o modelech světa se točí kolem filmařů a digitálních umělců. A abychom si rozuměli, to je naprosto v pořádku. Ale chcete vědět, kdo z toho může v tuto chvíli vytěžit nejvíce?

Marketingový manažer, který potřebuje stejnou kampaň spustit na šesti různých trzích, přičemž každý vyžaduje vlastní jazyk, tón a kontext.
Obchodní zástupce, který jde na schůzku s prezentací, jež nebyla vytvořena na míru danému klientovi, a všichni v místnosti to moc dobře vědí.
Vedoucí zákaznické podpory, jehož onboardingová videa jsou natolik zastaralá, že pravděpodobně páchají více škody než užitku.

Jak tedy vypadá současný produkční cyklus? Dáte zadání agentuře nebo internímu týmu, čekáte, procházíte kolečka zpětné vazby a nakonec nasadíte něco, co je v momentě spuštění už trochu neaktuální. Pro týmy, které obhospodařují více trhů a produktových řad, to není zrovna zanedbatelná komplikace.

A právě sem přichází Omni, které dokáže vytvořit vyladěné, stylizované materiály na základě několika konverzačních zadání. A ne, nepotřebujete k tomu vůbec žádné zkušenosti s úpravou videa, ani nemusíte čekat v žádné frontě. Navíc je už integrované v aplikaci Gemini, která je součástí stejného prostředí Google Workspace, jaké vaše týmy používají každý den. To znamená, že nemusíte nic nového implementovat ani spouštět žádné školicí programy. Tyto schopnosti tam prostě jsou a čekají na využití.

Kreativní vize zůstává na vás. Samotná realizace už ale nemusí.

Teď se zamyslete nad tím, co to reálně mění. Když vás vyzkoušení jiného úhlu kamery nebo vizuálního stylu stojí jednu větu namísto hodiny práce, začnete více experimentovat. Rychleji zjistíte, co opravdu funguje. V tom tkví ta skutečná výhoda.

Týmy, které zareagují jako první, vyprodukují více obsahu, dostanou ho ven rychleji a zvládnou to s pouhým zlomkem provozních nákladů, které nesou dnes. A tento efekt se velmi rychle sčítá.

Cesta k obecné umělé inteligenci

Gemini Omni je sice technický představení produktu, ale Demis Hassabis mluvil otevřeně o širším kontextu, do kterého zapadá.

Vývoj modelů, které dokážou skutečně pochopit a simulovat fyzický svět, je podle něj naprosto nezbytným předpokladem pro vznik AGI. Jakmile AI systémy převezmou autonomnější role — jako je správa kalendářů, fungování v podobě fyzických robotů v reálném prostředí nebo rozhodování v reálném světě —, budou potřebovat funkční model toho, jak svět kolem nich funguje. Systém, který nedokáže uvažovat o gravitaci, hybnosti nebo chování objektů v prostoru, na to zkrátka není připraven.

A právě simulace reality pomocí Omni to umožňuje. Éra nativní umělé inteligence už není jen konceptem v plánech do budoucna. Už teď ji máte přímo v aplikaci.

Omni tvoří z čehokoli. Gemini pohání všechno. S Omni se tvorba videa stává prostým rozhovorem. Gemini posouvá stejnou inteligenci ještě dál — do každého nástroje Workspace, na který se vaše týmy denně spoléhají. Cloudfresh se postará o to, abyste na to byli stoprocentně připraveni. Získejte konzultace a školení pro Gemini →