什么是 Gemini Omni?
Google 于 5 月 19 日在 Google I/O 2026 上发布了 Gemini Omni —— 一个全新的多模态 AI 模型系列。它的核心理念很简单:不管你输入什么,都能帮你创作出想要的内容。
和过去那些分别处理文本、图片或视频的 AI 工具不同,Gemini Omni 可以同时理解多种输入。你可以给它一张图片、一段语音、一小段视频,或者只写一段文字提示词,它都能生成一段连贯、高质量的视频。后续修改也会基于前一次结果继续推进,因此整个编辑过程更像是在和 AI 对话,而不是每次都从零开始。
Omni 还明显提升了对现实世界物理规律的理解,比如重力、液体运动、动能变化等。这意味着生成出来的画面会更贴近真实世界,不容易出现漂浮感、穿模或动作失真的问题。
Google 将 Omni 设计成一个模型系列,而不是单一模型。目前这个系列的第一个模型是已经上线的 Omni Flash;第二个模型 Omni Pro 已经确认会推出,但暂时还没有公布具体发布时间。
Gemini Omni Flash:现在已经可以使用
Omni Flash 是 Omni 系列中第一个面向公众开放的模型。Google 对它的定位是快速、易用、门槛更低,更适合日常创作,而不是重型专业制作流程。
Omni Flash 能做什么?
- 图片生成视频:上传一张静态图片,描述你想要的动作,就能生成一段短视频
- 文字生成视频:只用文字提示词,也可以从零生成一个视频场景
- 对话式编辑:通过后续提示词继续修改结果,比如添加角色、改变光线、调整动作,而不需要重新开始
- 理解物理规律的视频生成:画面会更好地遵循重力、运动轨迹和流体动态,整体效果更自然
- 多模态输入:可以把图片、音频、视频和文字组合成一个完整输入
现在可以在哪里使用 Omni Flash?
Omni Flash 正在陆续接入以下产品:
- Gemini App(网页版、Android、iOS)
- Google Flow —— Google 面向视频项目的 AI 创作工作室
- YouTube Shorts —— 直接集成到 Shorts 的创作流程中
目前每次生成的视频最长为 10 秒。Google 已经确认,未来版本会支持更长的视频时长。
Omni Flash 适合谁使用?
按照 Google 的官方定位,Flash 更偏向普通用户和内容创作者工具。I/O 发布时展示的典型场景也更偏个人和社交内容,比如让一张人像动起来、重新创作旅行短片,或者为 Reels、Shorts 这类短视频平台生成风格化内容。
不过,从底层能力来看,Flash 的价值不只局限在娱乐创作。它具备物理推理、角色一致性、多模态输入等能力,因此对电商卖家、营销人员和小型创意团队也很实用。对于不想搭建完整视频制作流程、但又需要视频素材的人来说,Omni Flash 是一个很轻量的选择。
Gemini Omni Pro:即将推出
Omni Pro 是 Omni 系列中的第二个模型。Google 已经在 I/O 2026 上确认它的存在,但目前还没有正式发布。
Google 对 Omni Pro 透露了什么?
Google 目前对 Omni Pro 的细节披露得比较克制。Omni 产品团队给出的最清晰说法是:当他们认为 Pro 相比 Flash 已经形成明显跃迁时,才会正式推出。
这个表述基本说明了 Pro 的定位:它不会只是 Flash 的小幅升级。Google 更可能是在等待两者之间的质量差距足够明显之后,再推出一个独立的更高阶版本。
参考 Gemini 系列模型的一贯分层方式,Omni Pro 很可能会提供:
- 更高的视频输出质量和更长的视频时长
- 对角色一致性和场景构图更精细的控制
- 面对复杂、多步骤创作流程时表现更稳定
- 更适合代理公司、企业团队和专业制作场景
Omni Pro 什么时候发布?
目前还没有确认日期。参考 Gemini 3.5 系列的发布节奏,Flash 和 Pro 之间可能会间隔几周到几个月。
一旦 Omni Pro 正式发布,本文会第一时间更新。
Omni Flash 与 Omni Pro 对比
| Omni Flash | Omni Pro | |
|---|---|---|
| 状态 | ✅ 现已可用 | 🔜 即将推出 |
| 目标用户 | 创作者、普通用户、小团队 | 专业创作者、代理公司、企业团队 |
| 视频时长 | 最长 10 秒 | 更长,暂未确认 |
| 输入类型 | 图片、文字、音频、视频 | 图片、文字、音频、视频 |
| 编辑方式 | 对话式,基于提示词编辑 | 对话式编辑 + 更精细控制 |
| 物理理解能力 | 相比上一代模型有明显提升 | 预计会进一步提升 |
| 可用平台 | Gemini App、Flow、YouTube Shorts | 待定 |
| API 访问 | 尚未开放 | 尚未开放 |
说明: 上表中关于 Omni Pro 的规格,基于 Google 官方已透露的信息以及 Gemini 模型系列的产品分层规律。Pro 正式发布后,相关细节会继续更新。
现在如何使用 Gemini Omni Flash?
如果你现在就想体验 Omni Flash,可以选择以下两种方式:
方式一:通过 Gemini App 使用
登录 gemini.google.com,在模型选择器中选择 Omni Flash,上传图片或输入提示词,然后生成一段短视频。
在大多数地区,Gemini App 中的 Omni Flash 访问权限目前与 Google AI Pro 和 AI Ultra 订阅绑定。
方式二:通过 Video X 使用
Video X 是一个基于 Gemini Omni Flash 构建的 AI 视频生成平台。你可以上传一张图片,用自然语言描述想要的动作,然后生成一段 AI 短视频,不需要复杂设置。
可以免费开始使用,无需信用卡。
常见问题
Gemini Omni Flash 是免费的吗?
通过 Gemini App 使用时,需要 Google AI Pro 或 AI Ultra 订阅。在 Video X 上,你可以免费开始使用;实际生成视频时会消耗账户积分。
Gemini Omni 和 Veo 有什么区别?
Veo 是 Google 较早推出的 AI 视频模型,主要聚焦于文字生成视频。Gemini Omni 则是更新、更广的架构,可以同时理解文字、图片、音频和视频。Omni 还支持对话式编辑,而这并不是 Veo 最初的核心设计方向。
可以通过 API 使用 Gemini Omni Flash 吗?
Google 目前还没有公布 Omni Flash 的 API 端点。等 API 发布后,预计会通过 Google AI Studio 和 Gemini API 提供访问。本文会在访问方式确认后更新。
Gemini Omni Pro 什么时候发布?
目前还没有官方发布日期。Google 在 I/O 2026 上表示,只有当 Pro 在质量上相对 Flash 形成有意义的提升时,才会推出。
Gemini Omni Flash 生成的视频会带水印吗?
会。所有使用 Gemini Omni 生成的视频都会包含 Google 的 SynthID 数字水印。这个水印肉眼不可见,但可以通过 Gemini App、Chrome 中的 Gemini 以及 Google Search 进行验证。
Omni Flash 目前最长可以生成多长的视频?
目前每次生成最长为 10 秒。Google 已经确认,未来版本会支持更长的视频时长。