Gemini 2.5 Flash Image (Nano Banana)：保持主体一致性与基于提示词的编辑

Google 的 Gemini 2.5 Flash Image（代号 “Nano Banana”）正引起广泛关注——这并非没有原因。它将快速的图像生成与强大的编辑和视觉推理能力相结合，非常适合需要兼顾创意和控制力的应用。

在本文中，我们将介绍 Nano Banana 的特别之处，展示实际应用案例，概述定价预期，并提供快速入门指南，以便你立即在 NextDocs 中进行尝试。

为什么选择 Nano Banana

保持主体一致性：在多张图像中生成一致的角色和产品。非常适合品牌资产和不同角度的产品展示。
智能、基于提示词的编辑：通过简单的文本进行针对性编辑——删除物体、改变姿势、调整光影——无需复杂的选区操作。
视觉推理：超越单纯的生成。该模型能够理解场景、指令和关系，从而遵循复杂的编辑提示词。
信任与安全 (SynthID)：图像带有不可见的水印，清晰地标明为 AI 生成，支持负责任的使用。

核心功能

一致的角色和主体

保持角色或产品在不同场景和角度下的一致性。这对于以下场景特别有用：

营销系列和故事板
产品目录及其变体
品牌吉祥物和经常出现的角色

基于提示词的编辑（局部与全局）

将文本转化为编辑指令。例如：

“删除背景并保留柔和阴影”
“将主体的姿势改为四分之三侧面”
“将光影调整为温暖的日落色调”

适用于复杂任务的视觉推理

融合理解与生成：

在上下文中遵循多步编辑指令
理解场景中的物体及其关系
创建符合约束条件的构图

信任与安全（SynthID）

所有输出都包含不可见的 SynthID 水印。它旨在使 AI 生成的内容可审计，同时对观看者保持隐形。

定价（一览）

Nano Banana 可通过我们的 fal.ai 集成在 NextDocs 中使用。在运行任务之前，定价会显示在侧边栏中。截至本次更新：

生成 (1024×1024)：通常每张图像约 0.10 美元
编辑 (1024×1024)：通常每张图像约 0.10 美元

实际费用取决于模型选择和尺寸；请始终参考“运行”操作旁显示的预估值。

开发者快速入门

以下是改编自 Google 文档的一个最小示例。你可以使用 NextDocs 媒体面板（AI 选项卡）以交互方式尝试提示词，或者在自己的脚本中直接调用 API。

import PIL.Image
from google import genai
from google.genai import types
from io import BytesIO

client = genai.Client()

prompt = """
Show me a picture of a nano banana dish in a fancy restaurant with a Gemini theme
"""

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt],
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = PIL.Image.open(BytesIO(part.inline_data.data))
    image.save("generated_image.png")

在 NextDocs 中尝试

打开媒体面板 → AI → 选择 “Nano Banana”（或保持为 Auto）→ 输入提示词 → 查看预估成本 → 运行。对于编辑，选择 “编辑”，编写指令（例如 “删除背景”），并在插入前预览结果。

案例研究与灵感

跨营销活动的品牌角色一致性
多种环境下的产品主图
落地页的视觉 A/B 测试