Gemini 3 Pro Image Preview (Nano Banana Pro)
概览
Gemini 3 Pro Image Preview(又名 Nano Banana Pro)专为专业资产制作和复杂指令设计。该模型具备高级"Thinking"推理能力,在生成前优化构图,支持 Google Search 实时信息增强,可生成最高 4K 分辨率的图像。
最适合:复杂平面设计、高保真产品模型、精确文字渲染和需要真实数据支撑的可视化内容。
模型变体
| 模型 | 分辨率 | 积分/张 | 说明 |
|---|---|---|---|
gemini-3-pro-image-preview | 1K (1024px) | 8 | 专业质量,支持 Thinking |
gemini-3-pro-image-preview-2k | 2K (2048px) | 8 | 高分辨率专业输出 |
gemini-3-pro-image-preview-4k | 4K (4096px) | 16 | 超高分辨率工作室品质 |
Nano Banana Pro 的 1K 和 2K 变体定价相同,因此当需要更高分辨率时,2K 是更好的默认选择,无需额外成本。4K 变体的积分成本翻倍,但能提供适合大幅面印刷的工作室级输出。
能力概览
| 功能 | 支持情况 |
|---|---|
| 文本生成图片 | ✅ 支持 |
| 图片编辑 | ✅ 支持 |
| 批量生成 | ✅ 每次请求最多 9 张 |
| 最大输入图片数 | 5(高保真),最多 14 张 |
| Thinking 推理 | ✅ 支持(默认开启) |
| 搜索增强 | ✅ 支持 |
支持的宽高比
1:1 · 16:9 · 9:16 · 4:3 · 3:4 · 2:3 · 3:2 · 4:5 · 5:4
定价
所有定价均基于通过 NanoBanana API 的每张图片成本,远低于官方渠道。
| 变体 | 我们的价格 | 官方价格 | 节省 |
|---|---|---|---|
| 1K (1024px) | ~$0.08 | ~$0.134 | ~40% |
| 2K (2048px) | ~$0.08 | ~$0.134 | ~40% |
| 4K (4096px) | ~$0.16 | ~$0.268 | ~40% |
由于 Nano Banana Pro 的 1K 和 2K 变体价格相同,除非你特别需要更小的文件大小或更快的响应时间,否则没有理由使用 1K。
高级功能
Nano Banana Pro Thinking 推理模式
Nano Banana Pro 包含一个名为"Thinking"的内置推理步骤,在渲染前规划图像构图。Thinking 步骤会分析提示词中的以下要素:
- 空间关系:物体之间应该如何相互放置
- 光线一致性:确保光源和阴影方向正确
- 文字布局:规划文字在构图中的位置以避免重叠
- 风格统一:在图像的所有元素中保持艺术风格一致
Thinking 模式默认开启,通常比没有此能力的模型产生更准确和详细的结果。它增加了少量延迟,但显著提升了复杂提示的输出质量。
搜索增强
启用增强功能后,模型可以将 Google Search 的真实世界知识融入生成过程。这对以下场景特别有价值:
- 真实地点:生成地标、城市和自然景点的准确描绘
- 时事信息:创建视觉准确地参考近期事件的图像
- 产品准确性:生成具有正确品牌、颜色和比例的真实产品图像
- 历史准确性:生成时代准确的图像,包含正确的服装、建筑和文物
多图片输入
每次请求最多可上传 14 张参考图片,其中 5 张指定为高保真参考。这使得以下工作流成为可能:
- 将多个源图片的元素组合到单一构图中
- 在一系列生成的图像中保持角色一致性
- 将参考艺术作品的艺术风格迁移到新构图中
- 使用不同的背景或设置重新创建产品布局
最佳实践
何时使用此模型
当你的项目需要以下特性时,选择 Nano Banana Pro 而非 Flash 层级:
- 精确文字渲染:海报、信息图或任何包含可读文字的图像
- 复杂构图:具有多个主体、特定空间排列或精细细节的场景
- 事实准确性:必须反映真实世界信息的图像(地点、产品、数据)
- 工作室品质输出:营销素材、专业演示文稿或面向客户的交付物
专业效果的提示词技巧
- 明确描述光线:指定"柔和的散射北向光"或"具有深阴影的戏剧性侧光",而不是依赖模型猜测。
- 包含材质描述词:像"拉丝铝合金表面"、"哑光陶瓷质感"或"光泽杂志印刷效果"这样的短语有助于模型产生逼真的纹理。
- 参考构图风格:提及特定的摄影或艺术风格,如"无缝背景上的产品摄影"、"时尚编辑版面布局"或"平铺排列"。
- 谨慎使用否定描述:虽然你可以指示模型避免某些元素,但关于你想要什么的正面描述往往产生更可靠的结果。
使用场景
- 专业资产制作 — 商业广告活动的工作室品质图像
- 复杂平面设计 — 精确遵循多步骤复杂指令,用于海报和包装设计
- 精确文字渲染 — 广告、信息图和社交媒体图形的准确文字呈现
- 产品模型 — 高保真商业摄影,支持精确的 Logo 和品牌融合
- 数据驱动可视化 — 基于 Google Search 真实数据生成图表、图示和信息图
- 风格迁移 — 使用参考图片在单一构图中混合和融合多种艺术风格
- 编辑内容 — 杂志封面、书籍插图和专题文章头图,具有专业级质感
- 建筑可视化 — 使用逼真光线和材质渲染室内外设计概念
快速开始
将 YOUR_API_KEY 替换为你的 API Key。还没有?点击这里创建。
curl -X POST "https://api.nanobananaapi.dev/v1/images/generate" \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"prompt": "A professional product shot of a sleek perfume bottle on a marble surface with dramatic studio lighting",
"num": 1,
"model": "gemini-3-pro-image-preview",
"image_size": "4:3"
}'const res = await fetch('https://api.nanobananaapi.dev/v1/images/generate', {
method: 'POST',
headers: {
Authorization: 'Bearer YOUR_API_KEY',
'Content-Type': 'application/json',
},
body: JSON.stringify({
prompt: 'A professional product shot of a sleek perfume bottle on a marble surface with dramatic studio lighting',
num: 1,
model: 'gemini-3-pro-image-preview',
image_size: '4:3',
}),
});
const result = await res.json();
console.log(result.data.url);import requests
res = requests.post(
'https://api.nanobananaapi.dev/v1/images/generate',
headers={
'Authorization': 'Bearer YOUR_API_KEY',
'Content-Type': 'application/json',
},
json={
'prompt': 'A professional product shot of a sleek perfume bottle on a marble surface with dramatic studio lighting',
'num': 1,
'model': 'gemini-3-pro-image-preview',
'image_size': '4:3',
},
timeout=60,
)
result = res.json()
print(result['data']['url'])API 参数参考
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
prompt | string | 是 | 描述要生成的图像的文本 |
model | string | 是 | 模型标识符(见上方变体表) |
num | integer | 否 | 生成图片数量(1–9,默认 1) |
image_size | string | 否 | 宽高比(默认 1:1) |
ref_images | array | 否 | 用于风格或角色引导的参考图片 |
常见问题
为什么 Nano Banana Pro 比 Flash 层级贵? Pro 层级使用了更复杂的处理流程,包含额外的推理步骤(Thinking)和 Google Search 增强访问。这产生了更高质量的结果,但每张图片需要更多的计算资源。
什么时候应该使用 4K 分辨率? 当你需要印刷级素材、大幅面展示(广告牌、展会横幅)以及图像将在高 DPI 屏幕上近距离查看的任何场景时,使用 4K。对于网页用途,1K 或 2K 通常已经足够且更经济。
可以关闭 Thinking 模式吗? 可以,但不建议。Thinking 模式默认开启且建议保持开启以获得最佳效果。关闭它可能会减少延迟,但可能导致构图不够连贯,尤其是对于具有多个主体或文字元素的复杂场景。
文字渲染的准确度如何? 文字准确度取决于字体样式、文字长度和整体图像复杂度等因素。对于短语和标题,准确度通常非常高。对于较长的段落或小号文字,建议在生成后使用专门的文字叠加工具。
相关文档
- 文本生成图片 API — 图片生成完整 API 参考
- 图片编辑 API — 图片编辑和转换
- Gemini 2.5 Flash Image — 最快速度,最低成本
- Gemini 3.1 Flash Image Preview — 高效率,支持扩展分辨率