腾讯混元图像3.0登顶LMArena——一款开源模型
汉娜

汉娜
GoEnhance 新闻室 — 2025年10月5日(太平洋时间)
在开源AI领域的一个里程碑中,腾讯的混元图像3.0 已经跃升至 LMArena文本生成图像排行榜的第一名,超过了谷歌的"纳米香蕉"(Gemini 2.5 Flash Image Preview)和字节跳动的Seedream——基于人类盲投票的对决结果。(LMArena)
发生了什么
- 排行榜震荡: LMArena的实时排行榜现在将 混元图像3.0 列为26个模型中的榜首,排名由数百万用户投票决定,而非合成基准测试。(LMArena)
- 快速上升: 腾讯混元团队和LMArena都在周末宣布了登顶第一的消息,称其为"巨大成就"。(X(原Twitter))
- 开源且新鲜: 该模型的 代码和权重 于九月底发布,并迅速攀升至社区排行榜前列。(GitHub)

为什么重要
- 社区的胜利: 一个 开源、商用级 模型现在在长期由专有系统主导的 人类偏好 领域中领先——这是一个对重视透明性和自托管的开发者来说的转折点。(LMArena)
- 生产就绪感: 早期测试者强调了 清晰的文本渲染、强大的语义控制 和 一致的美学效果——这些是开源模型传统上落后的领域。(Skywork)
内部机制(快速了解)
- 原生多模态,MoE设计: 混元图像3.0采用了一个大型的 专家混合(≈800亿参数总量,每个token约13亿激活) 架构,将 语言理解与图像生成 统一在一个自回归Transformer中——无需单独的文本编码器。(Hugging Face)
- 广义因果注意力: 文本token遵循因果(类似LLM)注意力,而图像token获得全局上下文——提升了图像中的 推理对齐 和 空间一致性。(arXiv)
- 二维位置编码与自动形状: 该模型为图像引入了 二维RoPE,并能在未指定时从上下文中预测 宽高比/分辨率——对创意工作流非常实用。(arXiv)
当前缺失的功能
腾讯确认 当前发布的版本专注于文本生成图像。图像编辑、图像到图像转换和多轮交互 计划在未来版本中推出。如果您依赖编辑操作(如修补、润色、风格迁移),在生态系统完善之前,请继续使用现有工具链。(富途新闻)
这对GoEnhance创作者的影响
- 更好的排版和长提示控制: 如果您的活动需要 海报级文本 或 密集的创意简报,混元3.0的优势直接适用于 广告创意、关键艺术和包装设计 的使用场景。(Skywork)
- 开源部署路径: 自托管团队可以根据早期采用者提到的开放权重和MoE效率技巧评估延迟/成本权衡。(GitHub)
试用 / 跟踪
- 在LMArena的文本生成图像排行榜上 查看实时排名和示例。(LMArena)
- 在Hugging Face和官方GitHub上 探索模型卡和权重,了解设置详情和更新。(Hugging Face)
- 腾讯混元在X上的官方公告和亮点。 (X(原Twitter))
编辑注释(GoEnhance)
我们正在我们的内部基准测试套件中评估混元图像3.0,与Flux、Seedream系列模型等进行对比。目前,您可以继续使用我们的 AI图像生成器 和 视频工具 进行创作,我们将在生产就绪时分享集成更新。
来源:LMArena排行榜和公告;腾讯混元帖子;Hugging Face模型卡;GitHub仓库;第三方技术评测和报道。 (LMArena)



