Gemini 3.1 Flash Image Preview (Nano Banana 2)
概览
Gemini 3.1 Flash Image Preview(又名 Nano Banana 2)以主流价位和低延迟提供高质量的图像生成和对话式编辑。作为 Pro 层级的高效版本,专为速度和大批量开发者场景优化。
Nano Banana 2 支持从 512px 到 4K 的输出分辨率、扩展宽高比(包括超宽格式)、图像搜索增强、Thinking 推理模式和改进的多语言文字渲染。
模型变体
| 模型 | 分辨率 | 积分/张 | 说明 |
|---|---|---|---|
gemini-3.1-flash-image-preview-512 | 512px | 4 | 快速预览,较低分辨率 |
gemini-3.1-flash-image-preview | 1K (1024px) | 4 | 默认平衡质量 |
gemini-3.1-flash-image-preview-2k | 2K (2048px) | 6 | 高分辨率 |
gemini-3.1-flash-image-preview-4k | 4K (4096px) | 8 | 超高分辨率 |
请根据输出需求选择 Nano Banana 2 变体。1K 变体适合社交媒体帖子和缩略图,2K 和 4K 变体适合印刷级素材和高 DPI 显示器。
能力概览
| 功能 | 支持情况 |
|---|---|
| 文本生成图片 | ✅ 支持 |
| 图片编辑 | ✅ 支持 |
| 批量生成 | ✅ 每次请求最多 9 张 |
| 最大输入图片数 | 10(角色相似度最多 4 个) |
| Thinking 推理 | ✅ 支持 |
| 搜索增强 | ✅ 支持(文本 + 图像搜索) |
支持的宽高比
标准:
1:1 · 16:9 · 9:16 · 4:3 · 3:4 · 2:3 · 3:2 · 4:5 · 5:4
扩展(仅此模型支持):
21:9 · 1:4 · 4:1 · 8:1 · 1:8
扩展宽高比特别适用于网站横幅(21:9)、垂直故事背景(1:4)和全景场景(8:1)。我们产品线中没有其他模型支持这些极端宽高比。
定价
所有定价均基于通过 NanoBanana API 的每张图片成本,远低于官方渠道的直接定价。
| 变体 | 我们的价格 | 官方价格 | 节省 |
|---|---|---|---|
| 512px | ~$0.04 | ~$0.05 | ~20% |
| 1K (1024px) | ~$0.04 | ~$0.067 | ~40% |
| 2K (2048px) | ~$0.06 | ~$0.101 | ~40% |
| 4K (4096px) | ~$0.08 | ~$0.151 | ~47% |
Nano Banana 2 更高分辨率相比官方定价提供了更大的节省空间。对于大批量工作负载,使用我们的积分套餐可以实现更高的成本效率。
最佳实践
提示词工程技巧
- 具体描述细节:在提示词中包含颜色、光线、视角和氛围描述,以获得更好的结果。例如,"一只金毛猎犬小狗在秋叶中玩耍,温暖的夕阳光线,浅景深"比简单的"一只狗"产生更精确的输出。
- 使用自然语言:将提示词写成完整的描述性句子,而不是逗号分隔的关键词。底层的语言模型可以理解上下文和语义,而不仅仅是单独的术语。
- 利用参考图片:上传最多 10 张参考图片来引导风格、构图或角色一致性。这是在多个素材之间保持视觉品牌的理想方式。
选择合适的分辨率
- 512px:最适合快速迭代、故事板或概念探索,速度比最终质量更重要的场景。
- 1K (1024px):适合网页内容、社交媒体帖子、博客头图和电子邮件通讯。质量和成本的最佳平衡。
- 2K (2048px):建议用于产品摄影、营销素材和需要在视网膜显示器上呈现锐利细节的演示文稿。
- 4K (4096px):专为印刷级素材、大幅面展示和档案级图像设计。也适合从全景构图中裁剪高细节区域。
性能优化
- 批量请求:将多个 Nano Banana 2 提示词合并到单个请求中(最多 9 张图片),以减少往返开销并提高吞吐量。
- 缓存常用参数:在客户端存储首选的模型、分辨率和风格设置,避免在每次 API 调用中重复配置。
- 4K 使用 Webhook:更高分辨率可能需要更长的渲染时间。对于生产工作负载,考虑使用 Webhook 回调而不是同步轮询。
使用场景
- 专业内容创作 — 营销活动和社交媒体渠道的高分辨率图像
- 产品可视化 — 精细的产品模型和商业摄影,支持 Logo 融合
- 多参考图生成 — 使用最多 10 张参考图实现一致的角色和风格输出
- 超宽/全景 — 网站头图、横幅和电影感背景的扩展宽高比
- 多语言文字渲染 — 改进的 CJK 字符、阿拉伯文和其他非拉丁文字系统的准确度
- 迭代式设计工作流 — 通过对话式提示编辑和优化生成的图像
- 品牌素材制作 — 使用风格参考在大型内容库中保持视觉一致性
快速开始
将 YOUR_API_KEY 替换为你的 API Key。还没有?点击这里创建。
curl -X POST "https://api.nanobananaapi.dev/v1/images/generate" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"prompt": "A futuristic city skyline at dusk with neon lights reflecting on glass buildings",
"num": 1,
"model": "gemini-3.1-flash-image-preview-2k",
"image_size": "16:9"
}'const res = await fetch('https://api.nanobananaapi.dev/v1/images/generate', {
method: 'POST',
headers: {
Authorization: 'Bearer YOUR_API_KEY',
'Content-Type': 'application/json',
},
body: JSON.stringify({
prompt: 'A futuristic city skyline at dusk with neon lights reflecting on glass buildings',
num: 1,
model: 'gemini-3.1-flash-image-preview-2k',
image_size: '16:9',
}),
});
const result = await res.json();
console.log(result.data.url);import requests
res = requests.post(
'https://api.nanobananaapi.dev/v1/images/generate',
headers={
'Authorization': 'Bearer YOUR_API_KEY',
'Content-Type': 'application/json',
},
json={
'prompt': 'A futuristic city skyline at dusk with neon lights reflecting on glass buildings',
'num': 1,
'model': 'gemini-3.1-flash-image-preview-2k',
'image_size': '16:9',
},
timeout=60,
)
result = res.json()
print(result['data']['url'])API 参数参考
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
prompt | string | 是 | 描述要生成的图像的文本 |
model | string | 是 | 模型标识符(见上方变体表) |
num | integer | 否 | 生成图片数量(1–9,默认 1) |
image_size | string | 否 | 宽高比(默认 1:1) |
ref_images | array | 否 | 用于风格或角色引导的参考图片 |
常见问题
Nano Banana 2 的 1K 和 2K 变体有什么区别? 1K 变体输出 1024×1024 像素的图像,而 2K 变体输出 2048×2048 像素。2K 变体每张图片成本略高,但提供显著更清晰的细节,更适合印刷和高 DPI 屏幕。
可以使用参考图片来保持角色一致性吗? 可以。每次请求最多可上传 10 张参考图片,其中最多 4 张专门用于角色相似度。这对于在多个场景中创建一致的角色或保持品牌吉祥物非常有用。
Nano Banana 2 支持图片编辑吗? 支持。你可以传入现有图片并附上描述期望修改的文本提示。模型支持对话式编辑,意味着你可以对同一基础图片进行多轮优化。
搜索增强是如何工作的? 启用时,模型可以访问 Google 搜索结果,将其输出基于真实世界信息。在生成真实地点、当前事件或需要最新视觉参考的事实性主题图像时非常有用。
相关文档
- 文本生成图片 API — 图片生成完整 API 参考
- 图片编辑 API — 图片编辑和转换
- Gemini 2.5 Flash Image — 最快速度,最低成本
- Gemini 3 Pro Image Preview — 专业级,高级推理能力