Hunyuan Image 2.1 —— 原生 2K 文生图生成

开源高分辨率文生图，具备更强文本对齐、多语言理解与电影级构图细节。现已上线 GoEnhance AI —— 结合 PromptEnhancer 与 Refiner，生成原生 2K（2048×2048）高质感图像。

Hunyuan Image 2.1 主要特性

针对 2048×2048 与多种高分辨率比例优化，细节清晰、构图稳定、还原度更高。

32× 空间压缩在保留结构的同时显著减少 token 数量——以近似 1K 的 token 规模实现 2K 画质，推理更高效。

多模态编码器理解场景与动作，结合字形感知的 ByT5 提升文本渲染与中英双语能力。

可选提示词重写增强语义清晰度；Refiner 进一步提升细节并减少伪影——二者搭配效果最佳。

蒸馏版本支持更少步数即可出图，适合快速预览与迭代创作。

支持 1:1、16:9、9:16、4:3、3:4、3:2、2:3 等多比例，覆盖社媒、电商与打印等场景。

明确主体、场景、光线、构图与（如有）画面文字；可补充风格关键词（写实/动漫/电影感等）。

打开 PromptEnhancer 获得更丰富细节；启用 Refiner 获得更锐利边缘与更少伪影。

先用蒸馏步数快速预览，再进行放大/精修，导出最终成品。

功能项	Hunyuan Image 2.1	典型开源T2I模型
分辨率目标	原生2K（2048×2048），细节稳定	典型为1K–1.5K；2K时通常不稳定
Token效率	32× VAE压缩 → 更少的潜空间tokens	通常为8×–16×压缩
提示处理	双编码器（多模态编码器 + ByT5字形感知）	单编码器；文字识别能力有限
质量增强	PromptEnhancer + Refiner + RLHF训练	后期优化有限；增强工具较少
速度选项	Meanflow蒸馏步骤 → 快速草稿生成	仅标准扩散步骤

一款面向原生 2K 输出的高效开源文生图模型。采用高压缩 VAE、单/双流 DiT 主干与双文本编码器，实现更强的语义对齐与成图质量。

建议使用 2K 级尺寸：2048×2048（1:1）、2560×1536（16:9）、1536×2560（9:16）、2304×1792（4:3）、1792×2304（3:4）、2560×1706（3:2）、1706×2560（2:3）。较低分辨率可能出现伪影。

非必选但强烈推荐。PromptEnhancer 增强语义与细节，Refiner 进一步提升清晰度并减少伪影，组合使用最佳。

有。蒸馏 checkpoint 支持更少步数快速预览；追求极致质量可切换非蒸馏并启用 Refiner。

支持，针对中英文提示优化。若需渲染画面文字（Logo/海报/PPT），请提供准确拼写并尽量使用较大字号以提高可读性。

支持在遵守 GoEnhance AI 服务条款的前提下商用。请勿生成侵权内容，注意商标与肖像等权益。

原生 2K 需较新 NVIDIA GPU 与充足显存。可用蒸馏步数与 CPU offloading 降低门槛；在 GoEnhance AI 上则可直接云端使用。

原生 2K、强指令对齐、多语言支持，可选提示增强与精修，浏览器即开即用。