腾讯混元图像3.0登顶LMArena——一款开源模型

汉娜

March 22, 2026

汉娜

GoEnhance 新闻室 — 2025年10月5日（太平洋时间）

在开源AI领域的一个里程碑中，腾讯的混元图像3.0 已经跃升至 LMArena文本生成图像排行榜的第一名，超过了谷歌的"纳米香蕉"（Gemini 2.5 Flash Image Preview）和字节跳动的Seedream——基于人类盲投票的对决结果。(LMArena)

发生了什么

排行榜震荡： LMArena的实时排行榜现在将 混元图像3.0 列为26个模型中的榜首，排名由数百万用户投票决定，而非合成基准测试。(LMArena)
快速上升： 腾讯混元团队和LMArena都在周末宣布了登顶第一的消息，称其为"巨大成就"。(X（原Twitter）)
开源且新鲜： 该模型的 代码和权重 于九月底发布，并迅速攀升至社区排行榜前列。(GitHub)

混元图像横幅

社区的胜利： 一个 开源、商用级 模型现在在长期由专有系统主导的 人类偏好 领域中领先——这是一个对重视透明性和自托管的开发者来说的转折点。(LMArena)
生产就绪感： 早期测试者强调了 清晰的文本渲染、强大的语义控制 和 一致的美学效果——这些是开源模型传统上落后的领域。(Skywork)

原生多模态，MoE设计： 混元图像3.0采用了一个大型的 专家混合（≈800亿参数总量，每个token约13亿激活） 架构，将 语言理解与图像生成 统一在一个自回归Transformer中——无需单独的文本编码器。(Hugging Face)
广义因果注意力： 文本token遵循因果（类似LLM）注意力，而图像token获得全局上下文——提升了图像中的 推理对齐 和 空间一致性。(arXiv)
二维位置编码与自动形状： 该模型为图像引入了 二维RoPE，并能在未指定时从上下文中预测 宽高比/分辨率——对创意工作流非常实用。(arXiv)

腾讯确认 当前发布的版本专注于文本生成图像。图像编辑、图像到图像转换和多轮交互 计划在未来版本中推出。如果您依赖编辑操作（如修补、润色、风格迁移），在生态系统完善之前，请继续使用现有工具链。(富途新闻)

更好的排版和长提示控制： 如果您的活动需要 海报级文本 或 密集的创意简报，混元3.0的优势直接适用于 广告创意、关键艺术和包装设计 的使用场景。(Skywork)
开源部署路径： 自托管团队可以根据早期采用者提到的开放权重和MoE效率技巧评估延迟/成本权衡。(GitHub)

我们正在我们的内部基准测试套件中评估混元图像3.0，与Flux、Seedream系列模型等进行对比。目前，您可以继续使用我们的 AI图像生成器 和 视频工具 进行创作，我们将在生产就绪时分享集成更新。

来源：LMArena排行榜和公告；腾讯混元帖子；Hugging Face模型卡；GitHub仓库；第三方技术评测和报道。 (LMArena)