博客
nano bananagemini 2.5image generationprompt editingsynthidvisual reasoning

Gemini 2.5 Flash Image (Nano Banana):保持主体一致性与基于提示词的编辑

1 min
Gemini 2.5 Flash Image (Nano Banana):保持主体一致性与基于提示词的编辑

Google 的 Gemini 2.5 Flash Image(代号 “Nano Banana”)正引起广泛关注——这并非没有原因。它将快速的图像生成与强大的编辑和视觉推理能力相结合,非常适合需要兼顾创意和控制力的应用。

在本文中,我们将介绍 Nano Banana 的特别之处,展示实际应用案例,概述定价预期,并提供快速入门指南,以便你立即在 NextDocs 中进行尝试。

为什么选择 Nano Banana

  • 保持主体一致性:在多张图像中生成一致的角色和产品。非常适合品牌资产和不同角度的产品展示。
  • 智能、基于提示词的编辑:通过简单的文本进行针对性编辑——删除物体、改变姿势、调整光影——无需复杂的选区操作。
  • 视觉推理:超越单纯的生成。该模型能够理解场景、指令和关系,从而遵循复杂的编辑提示词。
  • 信任与安全 (SynthID):图像带有不可见的水印,清晰地标明为 AI 生成,支持负责任的使用。

核心功能

一致的角色和主体

保持角色或产品在不同场景和角度下的一致性。这对于以下场景特别有用:

  • 营销系列和故事板
  • 产品目录及其变体
  • 品牌吉祥物和经常出现的角色

基于提示词的编辑(局部与全局)

将文本转化为编辑指令。例如:

  • “删除背景并保留柔和阴影”
  • “将主体的姿势改为四分之三侧面”
  • “将光影调整为温暖的日落色调”

适用于复杂任务的视觉推理

融合理解与生成:

  • 在上下文中遵循多步编辑指令
  • 理解场景中的物体及其关系
  • 创建符合约束条件的构图

信任与安全(SynthID)

所有输出都包含不可见的 SynthID 水印。它旨在使 AI 生成的内容可审计,同时对观看者保持隐形。

定价(一览)

Nano Banana 可通过我们的 fal.ai 集成在 NextDocs 中使用。在运行任务之前,定价会显示在侧边栏中。截至本次更新:

  • 生成 (1024×1024):通常每张图像约 0.10 美元
  • 编辑 (1024×1024):通常每张图像约 0.10 美元

实际费用取决于模型选择和尺寸;请始终参考“运行”操作旁显示的预估值。

开发者快速入门

以下是改编自 Google 文档的一个最小示例。你可以使用 NextDocs 媒体面板(AI 选项卡)以交互方式尝试提示词,或者在自己的脚本中直接调用 API。

import PIL.Image
from google import genai
from google.genai import types
from io import BytesIO

client = genai.Client()

prompt = """
Show me a picture of a nano banana dish in a fancy restaurant with a Gemini theme
"""

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt],
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = PIL.Image.open(BytesIO(part.inline_data.data))
    image.save("generated_image.png")

在 NextDocs 中尝试

打开媒体面板 → AI → 选择 “Nano Banana”(或保持为 Auto)→ 输入提示词 → 查看预估成本 → 运行。对于编辑,选择 “编辑”,编写指令(例如 “删除背景”),并在插入前预览结果。

案例研究与灵感

  • 跨营销活动的品牌角色一致性
  • 多种环境下的产品主图
  • 落地页的视觉 A/B 测试

相关内容

— NextDocs 团队