騰訊的混元影像 3.0 登頂 LMArena——一個開源模型
Hannah

Hannah
GoEnhance 新聞室 — 2025 年 10 月 5 日(PT)
在開源 AI 的里程碑中,騰訊的 混元影像 3.0 已經攀升至 LMArena 文本生成影像排行榜的第一名,超越了 Google 的"納米香蕉"(Gemini 2.5 Flash Image Preview)和字節跳動的 Seedream——基於人類盲選投票的結果。(LMArena)
發生了什麼
- 排行榜震盪: LMArena 的即時排行榜現在列出 混元影像 3.0 位居 26 個模型中的首位,其排名由數百萬用戶投票驅動,而非合成基準測試。(LMArena)
- 迅速崛起: 騰訊混元團隊和 LMArena 都在週末宣布登上第一名,稱這是"一項重大成就"。(X(前身為 Twitter))
- 開源且新鮮: 該模型的 代碼和權重 在 9 月底發布,並迅速攀升至社區排行榜。(GitHub)

為什麼重要
- 社區的勝利: 一個 開源、商業級 的模型現在領先於一個 人類偏好的競技場,這個競技場長期以來由專有系統主導——對於重視透明度和自我託管的建設者來說,這是一個拐點。(LMArena)
- 生產就緒的感覺: 早期測試者強調 清晰的文本渲染、強大的語義控制 和 一致的美學效果——這些是開源模型傳統上落後的領域。(Skywork)
技術細節(快速概述)
- 原生多模態,MoE 設計: 混元影像 3.0 使用了一個大型 專家混合(≈80B 參數總數,~13B 每個 token 活躍) 架構,將 語言理解與影像生成 統一在一個自回歸 transformer 中——無需單獨的文本編碼器。(Hugging Face)
- 廣義因果注意力: 文本 token 遵循因果(類似 LLM)注意力,而影像 token 則獲得全局上下文——改善了影像中的 推理對齊 和 空間一致性。(arXiv)
- 2D 位置編碼與自動形狀: 該模型引入了 2D RoPE 用於影像,並且可以從上下文中 預測長寬比/分辨率,即使您未指定——對於創意工作流程非常方便。(arXiv)
目前缺失的功能
騰訊確認 目前發布的版本專注於文本生成影像。影像編輯、影像到影像以及多輪交互計劃在未來版本中推出。如果您依賴編輯操作(填充、修飾、風格轉換),在生態系統趕上之前請保持現有工具鏈。(Futu News)
對 GoEnhance 創作者的影響
- 更好的排版與長提示控制: 如果您的活動需要 海報級文本 或 密集的創意簡報,混元 3.0 的優勢直接映射到 廣告創意、關鍵藝術和包裝展示的使用場景。(Skywork)
- 開源部署路徑: 自託管團隊可以根據早期採用者提到的開源權重和 MoE 效率技巧評估延遲/成本權衡。(GitHub)
試用 / 跟蹤
- 查看排行榜和示例,在 LMArena 的文本生成影像板塊。(LMArena)
- 探索模型卡和權重,在 Hugging Face 和 官方 GitHub 上了解設置細節和更新。(Hugging Face)
- 騰訊混元的官方公告與亮點,在 X 上查看。(X(前身為 Twitter))
編者按(GoEnhance)
我們正在我們的內部基準測試套件中評估混元影像 3.0,與 Flux、Seedream 系列模型及其他模型一起。現在,您可以繼續使用我們的 AI 影像生成器 和 視頻工具進行創作,我們將在集成準備就緒時分享更新。
來源:LMArena 排行榜和公告;騰訊混元帖子;Hugging Face 模型卡;GitHub 存儲庫;第三方技術評論和報導。 (LMArena)



