Cloud Блог – Google Cloud – Gemini Omni: Появление «модели мира»

Приветствуем в специальной серии статей по Google I/O ’26

Google Antigravity 2.0: Проектирование ПО на базе мультиагентных систем 01

Внутри Gemini Spark: Всегда активный агент Google 02

Gemini Omni: Появление «модели мира» 03

Google Cloud 23.06.2026

Gemini Omni: Появление «модели мира»

Фундамент «моделей мира» и путь к общему искусственному интеллекту
Мультимодальность и научное мышление
Эра «Nano Banana для видео» и редактирование в формате диалога
Реальные творческие процессы в приложении Gemini
Продвинутая обработка видео в Google Flow
Genie 3: Мастерство интерактивных сред и гидродинамики
Доступность, интеграция в экосистему и Omni Mercial
Что Gemini Omni значит для бизнеса
Путь к общему искусственному интеллекту

На конференции Google I/O ’26 CEO Google DeepMind Демис Хассабис представил Gemini Omni, и этот анонс восприняли иначе, чем обычные запуски продуктов. Это не просто более быстрая модель или новый интерфейс. Это совершенно иной тип ИИ.

Omni — это то, что исследователи называют полноценной «моделью мира», то есть система, которая не просто предсказывает текст или генерирует статичные картинки, а активно понимает и симулирует то, как работает реальность. Хассабис назвал ее важнейшим шагом на пути к созданию общего искусственного интеллекта, до которого, по его мнению, осталось всего несколько лет.

Заложенный здесь фундамент — ИИ, способный рассуждать о физике, пространственных отношениях и динамике реального мира, — делает возможным все, от передовой робототехники до по-настоящему проактивных ИИ-ассистентов.

Как глобальный партнер Google Cloud Premier-уровня, мы внимательно следим за этой технологией. Вам тоже стоит.

Фундамент «моделей мира» и путь к общему искусственному интеллекту

Чтобы понять, чем Omni отличается от других, нужно знать, на что были способны предыдущие ИИ-модели, а с чем они не справлялись.

LLM действительно хороши в своем деле. Загрузите в них текст, и они обработают и сгенерируют его на таком уровне, который до сих пор поражает. Но текст — это лишь часть картины. Настоящая «модель мира» должна понимать физику, пространственные связи и то, как объекты реально ведут себя в среде. Это совершенно иная задача, и простое предсказание следующего токена здесь не поможет.

Gemini Omni решает эту задачу, объединяя встроенную мультимодальность архитектуры Gemini с лучшими генеративными медиамоделями Google. До появления Omni Google уже создал мощные специализированные инструменты, такие как Veo для генерации видео, Nano Banana для создания и редактирования изображений, а также Genie для интерактивных симуляций.

Каждая из них демонстрировала проблески понимания физики и устройства мира. Но Omni симулирует сложные физические концепции, такие как кинетическая энергия, гравитация и гидродинамика, с точностью, недоступной прежним генеративным системам.

Поскольку модель изначально проектировалась как нативно мультимодальная, цель всегда была амбициозной: генерировать любой результат на основе любого ввода. Это был более сложный путь. Но, по словам команды DeepMind, инвестиции в архитектуру полностью себя оправдывают.

Мультимодальность и научное мышление

Одно из самых впечатляющих свойств Omni — способность сочетать строгую научную точность и визуальную креативность. Опираясь на глубокую базу знаний и логику Gemini, модель берет абстрактные или сложные научные концепции и превращает их в точные, стилизованные видео.

Демонстрация на презентации доказала это на примере обманчиво простого промпта: «Сделай пластилиновый ролик, объясняющий сворачивание белков». Такой запрос быстро выявляет пределы возможностей большинства ИИ-систем. Стандартная модель генерации видео не справится с требуемой научной точностью. Текстовая модель вообще не способна создать визуальный ряд.

Gemini Omni успешно справилась с обеими задачами. Она создала точное образовательное видео, показывающее, как белки начинают свой путь в виде цепочек аминокислот и сворачиваются в сложные структурные паттерны — альфа-спирали и плоские участки, называемые бета-листами, — пока не примут функциональную трехмерную форму.

И все это было выполнено в стиле пластилиновой анимации, без потери научной ценности. Для преподавателей и популяризаторов такое сочетание точности и творческого подхода открывает совершенно новые горизонты.

Эра «Nano Banana для видео» и редактирование в формате диалога

Модель Nano Banana от Google изменила представление о редактировании изображений. Omni призвана сделать то же самое для видео. Руководители продуктов Google прямо заявили об этом на презентации, назвав запуск Omni моментом «Nano Banana для видео».

С точки зрения разработки, считайте это Veo++: базовые возможности генерации видео от Veo, объединенные с глубоким когнитивным анализом и редактированием на естественном языке в одной системе.

Для большинства пользователей самым интересным станет процесс редактирования. Вместо того чтобы осваивать сложный таймлайн на основе нодов, вы просто общаетесь с моделью. Загружаете свои исходники и описываете, что нужно изменить. Демис Хассабис продемонстрировал это на примере селфи-видео: круг, нарисованный пользователем, превратился на экране в физически точную черную дыру.

В другом примере обычное видео вечерней прогулки было дополнено совершенно новыми элементами окружения, которые полностью изменили настроение сцены.

Демо разработчиков наглядно это подтвердило. Отрывок из подкаста, где общается группа людей, — и вдруг по кадру начинают летать кот и цветок. Абсурдно? Абсолютно. Но в этом и была суть. Omni объединила совершенно разные элементы в единый, связный и реалистичный видеопоток. Один из разработчиков признался, что именно в этот момент он осознал весь потенциал модели. Любое видео становится отправной точкой для создания чего-то совершенно нового.

Реальные творческие процессы в приложении Gemini

Gemini Omni уже встроена напрямую в обновленное приложение Gemini, которое доступно подписчикам тарифов Google AI Plus, Pro и Ultra по всему миру. Вы можете комбинировать текст, изображения и видео в приложении и работать с ними в рамках единого процесса.

На презентации показали, как это выглядит на практике, на примере истории музыкантки по имени Sashu. Она работала над новой песней и хотела быстро собрать видеотизер для поклонников. Она загрузила исходное видео, где она просто идет, добавила несколько референсов для желаемого визуального стиля и использовала Omni в приложении, чтобы полностью преобразить ролик с помощью простых промптов.

Результат впечатлял. Omni изменила визуальный стиль исходника, а Sashu даже смогла попросить поменять ракурс камеры на круговую панораму в 360 градусов. К слову, обычно для этого требуется специализированное оборудование, целая съемочная группа и долгий процесс постпродакшена.

При этом Omni сохранила физическую точность ее движений, а также темп и атмосферу оригинального исполнения. Изменилась визуальная оболочка. Человеческая основа осталась нетронутой.

Вскоре Omni появится и в Gemini Enterprise как инструмент, доступный по API.

Продвинутая обработка видео в Google Flow

Профессиональные креативщики, работающие в Google Flow — специальной платформе Google для художников, создающих изображения, фильмы и музыку, — теперь имеют доступ к тем же возможностям Omni, но с более тонкой настройкой.

Исходный материал на входе, готовая сцена на выходе, при этом сохраняется все, что делало оригинал ценным. Именно это показало демо Flow. Человек идет — игра актера, которую автор не хотел менять. Текстовый промпт и стилистический референс указали Omni переработать окружение и добавить сложные визуальные эффекты. Модель точно отделила объект от фона, а суть кадра осталась нетронутой.

Пользователи Flow также могут добавлять в существующие сцены совершенно новых персонажей, сгенерированных ИИ, при этом модель сохраняет их согласованность с остальным окружением. Стоит отдельно отметить уровень понимания контекста, который Omni демонстрирует при масштабных правках.

Попросите ее превратить раннее утро в поздний вечер, и она не просто затемнит небо. Она включит фары автомобиля и сымитирует то, как этот свет реалистично освещает частицы пыли в воздухе. Это уже физика света, а не просто базовая цветокоррекция.

Пользователи Flow также могут использовать модели на базе Omni для создания кастомных креативных инструментов, адаптированных под их специфические задачи, по сути, создавая собственные производственные утилиты поверх модели с помощью вайб-кодинга.

Genie 3: Мастерство интерактивных сред и гидродинамики

В основе способности Omni понимать мир лежит Genie 3 — специализированная «модель мира», которая дает ИИ базовые знания о том, как реально ведут себя объекты и среда. Именно это делает связность видео в Omni заметно лучше по сравнению с предыдущими поколениями.

Gemini Omni не просто генерирует пиксели, которые выглядят статистически правдоподобно. Она создает сцены на основе базовой модели того, как функционирует физический мир: гравитация, импульс, распространение света, поведение жидкостей.

Демонстрация Genie 3 показала это во всей красе. Пользователь попросил модель сгенерировать «спокойную скалистую местность с водопадом и динамичной физикой воды», а в качестве главного игрового персонажа добавил скоростной бумажный самолетик.

В сгенерированном окружении можно было перемещаться в реальном времени с помощью стрелок на клавиатуре. Когда пользователь управлял самолетиком и тот взаимодействовал с брызгами водопада, гидродинамика реагировала абсолютно корректно. Свет, отражающийся от поверхности реки, динамически менялся, когда самолетик пролетал над ней. Это была физическая симуляция в реальном времени внутри сгенерированного мира, а не заранее отрендеренный ролик.

Genie 3 уже сегодня доступна подписчикам Google AI Ultra.

Доступность, интеграция в экосистему и Omni Mercial

Учитывая высокие вычислительные требования «моделей мира», Google разворачивает Omni постепенно. Модель Gemini Omni Flash уже доступна во всей линейке продуктов Google, предоставляя пользователям возможности понимания мира, мультимодальность и редактирование видео в формате диалога прямо сейчас.

Ставка на видео — исторически самую сложную для реализации модальность — четко задает вектор: цель состоит в создании модели, способной генерировать любой результат на основе любого ввода без потери качества.

Google также подтвердил, что Gemini Omni Pro находится в активной разработке. Подробности о ее профессиональных возможностях появятся в ближайшее время.

Чтобы отметить запуск и дать разработчикам возможность сразу же протестировать технологию, Google установил стенд «Omni Mercial» в демо-зоне I/O ’26, где участники могли сняться в собственных высококачественных рекламных роликах, сгенерированных с помощью Omni.

Это была не просто забавная активация — стенд доказал, что создание видео профессионального качества больше не является прерогативой дорогих студий.

Что Gemini Omni значит для бизнеса

Большинство разговоров о «моделях мира» крутится вокруг режиссеров и диджитал-творцов. В этом нет ничего плохого. Но знаете, кто на самом деле выиграет от этого больше всего прямо сейчас?

Маркетолог, которому нужно запустить одну и ту же кампанию на шести разных рынках, каждый со своим языком, тоном и контекстом.
Сейлз-менеджер, который приходит на встречу с демоверсией, созданной не для этого конкретного клиента, и все в переговорке это понимают.
Руководитель отдела Customer Success, чьи онбординг-видео настолько устарели, что, скорее всего, приносят больше вреда, чем пользы.

Как выглядит текущий производственный цикл? Вы ставите задачу агентству или внутренней команде, ждете, проходите несколько раундов правок и выпускаете продукт, который к моменту релиза уже успевает слегка устареть. Для команд, работающих на нескольких рынках с разными продуктовыми линейками, это серьезная проблема.

И здесь на помощь приходит Omni, выдавая отполированные, стилизованные материалы по паре текстовых запросов. Нет, вам не нужны никакие навыки монтажа, и стоять в очереди к дизайнерам тоже не придется. Более того, функция уже встроена в приложение Gemini, которое является частью Google Workspace, где ваши команды работают каждый день. Это значит, что не нужно ничего дополнительно внедрять или запускать программы обучения. Инструмент уже под рукой и готов к работе.

Творческое видение остается за вами. А вот реализацию можно делегировать.

Подумайте, что это меняет на практике. Когда смена ракурса камеры или визуального стиля занимает одно предложение вместо часа работы, вы можете проводить больше экспериментов. Вы быстрее находите то, что действительно работает. В этом и заключается реальное преимущество.

Компании, которые внедрят эту технологию первыми, будут производить больше контента, выпускать его быстрее и тратить на это лишь малую часть тех ресурсов, которые уходят сегодня. И этот эффект будет быстро накапливаться.

Путь к общему искусственному интеллекту

Релиз Gemini Omni — это запуск технического продукта, но Демис Хассабис прямо указал на более глобальную перспективу.

Разработка моделей, способных по-настоящему понимать и симулировать физический мир, по его мнению, является обязательным условием для создания общего искусственного интеллекта. По мере того как ИИ-системы берут на себя больше автономных задач — управляют расписанием, функционируют как физические роботы в реальной среде, принимают решения в реальном мире, — им нужна рабочая модель устройства этого мира. Система, не способная мыслить категориями гравитации, импульса или поведения объектов в пространстве, к такому просто не готова.

То, что Omni симулирует реальность, делает это возможным. Эра нативных ИИ-решений больше не является концепцией в дорожной карте. Она уже в вашем приложении.

Omni создает из чего угодно. Gemini управляет всем. С Omni создание видео похоже на обычный разговор. Gemini идет еще дальше, внедряя этот интеллект в каждый инструмент Workspace, на который ежедневно полагается ваша команда. Cloudfresh позаботятся о том, чтобы вы были к этому готовы. Консультация и обучение по Gemini →