Gemini 2.5 Flash Image (Nano Banana): سوژه‌های ثابت و ویرایش مبتنی بر پرامپت

مدل Gemini 2.5 Flash Image گوگل (با نام کد «Nano Banana») توجه زیادی را به خود جلب کرده است — و دلیل خوبی هم دارد. این مدل تولید سریع تصویر را با ویرایش قدرتمند و استدلال بصری ترکیب می‌کند و آن را برای اپلیکیشن‌هایی که هم به خلاقیت و هم به کنترل نیاز دارند، ایده‌آل می‌سازد.

در این پست، به مواردی می‌پردازیم که Nano Banana را خاص می‌کند، موارد استفاده کاربردی را نشان می‌دهیم، انتظارات قیمت‌گذاری را مشخص می‌کنیم و یک راهنمای شروع سریع ارائه می‌دهیم تا بتوانید بلافاصله آن را در NextDocs امتحان کنید.

چرا Nano Banana

حفظ هویت سوژه: تولید شخصیت‌ها و محصولات ثابت در چندین تصویر. عالی برای دارایی‌های برند و عکس‌های محصول از زوایای مختلف.
ویرایش هوشمند مبتنی بر پرامپت: اعمال ویرایش‌های هدفمند با متن ساده — حذف اشیاء، تغییر ژست‌ها، تنظیم نور — بدون انتخاب‌های پیچیده.
استدلال بصری: فراتر از تولید تصویر. مدل صحنه‌ها، دستورالعمل‌ها و روابط را برای دنبال کردن پرامپت‌های ویرایشی پیچیده درک می‌کند.
اعتماد و ایمنی (SynthID): تصاویر به صورت نامرئی واترمارک می‌شوند تا تولید توسط هوش مصنوعی را به وضوح نشان دهند و از استفاده مسئولانه حمایت کنند.

قابلیت‌های اصلی

شخصیت‌ها و سوژه‌های ثابت

نگه داشتن یک شخصیت یا محصول به صورت ثابت در صحنه‌ها و زوایای مختلف. این قابلیت به ویژه برای موارد زیر مفید است:

مجموعه‌های بازاریابی و استوری‌بوردها
کاتالوگ‌های محصول و انواع آن
نمادهای برند (Mascots) و شخصیت‌های تکرار شونده

ویرایش مبتنی بر پرامپت (محلی و سراسری)

تبدیل متن به ویرایش. مثال‌ها:

«پس‌زمینه را حذف کن و سایه‌های نرم را نگه دار»
«ژست سوژه را به نمای سه‌رخ تغییر بده»
«نورپردازی را به رنگ گرم غروب آفتاب تغییر بده»

استدلال بصری برای وظایف غنی

ترکیب درک و تولید:

دنبال کردن دستورالعمل‌های ویرایشی چند مرحله‌ای در متن
درک اشیاء و روابط در یک صحنه
ایجاد ترکیب‌بندی‌هایی که محدودیت‌های شما را رعایت می‌کنند

اعتماد و ایمنی با SynthID

تمام خروجی‌ها شامل یک واترمارک نامرئی SynthID هستند. این ویژگی برای قابل ردیابی کردن محتوای تولید شده توسط هوش مصنوعی طراحی شده است، در حالی که برای بینندگان نامحسوس باقی می‌ماند.

قیمت‌گذاری (در یک نگاه)

مدل Nano Banana در NextDocs از طریق ادغام با fal.ai در دسترس است. قیمت‌گذاری در پنل کناری قبل از اجرای کار نمایش داده می‌شود. تا زمان این به‌روزرسانی:

تولید (۱۰۲۴×۱۰۲۴): معمولاً حدود ۰.۱۰ دلار برای هر تصویر
ویرایش (۱۰۲۴×۱۰۲۴): معمولاً حدود ۰.۱۰ دلار برای هر تصویر

هزینه‌های واقعی به انتخاب مدل و اندازه بستگی دارد؛ همیشه به تخمین نشان داده شده در کنار دکمه Run مراجعه کنید.

راهنمای شروع سریع برای توسعه‌دهندگان

در زیر یک مثال حداقلی برگرفته از مستندات گوگل آورده شده است. می‌توانید از پنل Media در NextDocs (تب AI) برای امتحان کردن پرامپت‌ها به صورت تعاملی استفاده کنید، یا API را مستقیماً در اسکریپت‌های خود فراخوانی کنید.

import PIL.Image
from google import genai
from google.genai import types
from io import BytesIO

client = genai.Client()

prompt = """
Show me a picture of a nano banana dish in a fancy restaurant with a Gemini theme
"""

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt],
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = PIL.Image.open(BytesIO(part.inline_data.data))
    image.save("generated_image.png")

آن را در NextDocs امتحان کنید

پنل Media را باز کنید ← AI ← مدل "Nano Banana" را انتخاب کنید (یا روی Auto بگذارید) ← پرامپت خود را وارد کنید ← هزینه تخمینی را بررسی کنید ← Run. برای ویرایش، "Edit" را انتخاب کنید، دستورالعمل را بنویسید (مثلاً "remove background") و قبل از درج، نتیجه را پیش‌نمایش کنید.

مطالعات موردی و الهام‌بخش

شخصیت‌های برند ثابت در کمپین‌های مختلف
تصاویر اصلی محصول در محیط‌های مختلف
تست‌های A/B بصری برای صفحات فرود

مرتبط

یک پنل رسانه جدید برای تولید و ویرایش با هوش مصنوعی

— تیم NextDocs