騰訊的混元影像 3.0 登頂 LMArena——一個開源模型

Hannah

March 22, 2026

Hannah

GoEnhance 新聞室 — 2025 年 10 月 5 日（PT）

在開源 AI 的里程碑中，騰訊的混元影像 3.0 已經攀升至 LMArena 文本生成影像排行榜的第一名，超越了 Google 的"納米香蕉"（Gemini 2.5 Flash Image Preview）和字節跳動的 Seedream——基於人類盲選投票的結果。(LMArena)

發生了什麼

排行榜震盪： LMArena 的即時排行榜現在列出 混元影像 3.0 位居 26 個模型中的首位，其排名由數百萬用戶投票驅動，而非合成基準測試。(LMArena)
迅速崛起： 騰訊混元團隊和 LMArena 都在週末宣布登上第一名，稱這是"一項重大成就"。(X（前身為 Twitter）)
開源且新鮮： 該模型的 代碼和權重 在 9 月底發布，並迅速攀升至社區排行榜。(GitHub)

混元影像橫幅

社區的勝利： 一個 開源、商業級 的模型現在領先於一個 人類偏好的競技場，這個競技場長期以來由專有系統主導——對於重視透明度和自我託管的建設者來說，這是一個拐點。(LMArena)
生產就緒的感覺： 早期測試者強調 清晰的文本渲染、強大的語義控制 和 一致的美學效果——這些是開源模型傳統上落後的領域。(Skywork)

原生多模態，MoE 設計： 混元影像 3.0 使用了一個大型 專家混合（≈80B 參數總數，~13B 每個 token 活躍） 架構，將 語言理解與影像生成 統一在一個自回歸 transformer 中——無需單獨的文本編碼器。(Hugging Face)
廣義因果注意力： 文本 token 遵循因果（類似 LLM）注意力，而影像 token 則獲得全局上下文——改善了影像中的 推理對齊 和 空間一致性。(arXiv)
2D 位置編碼與自動形狀： 該模型引入了 2D RoPE 用於影像，並且可以從上下文中 預測長寬比/分辨率，即使您未指定——對於創意工作流程非常方便。(arXiv)

騰訊確認 目前發布的版本專注於文本生成影像。影像編輯、影像到影像以及多輪交互計劃在未來版本中推出。如果您依賴編輯操作（填充、修飾、風格轉換），在生態系統趕上之前請保持現有工具鏈。(Futu News)

更好的排版與長提示控制： 如果您的活動需要 海報級文本 或 密集的創意簡報，混元 3.0 的優勢直接映射到 廣告創意、關鍵藝術和包裝展示的使用場景。(Skywork)
開源部署路徑： 自託管團隊可以根據早期採用者提到的開源權重和 MoE 效率技巧評估延遲/成本權衡。(GitHub)

我們正在我們的內部基準測試套件中評估混元影像 3.0，與 Flux、Seedream 系列模型及其他模型一起。現在，您可以繼續使用我們的 AI 影像生成器 和 視頻工具進行創作，我們將在集成準備就緒時分享更新。

來源：LMArena 排行榜和公告；騰訊混元帖子；Hugging Face 模型卡；GitHub 存儲庫；第三方技術評論和報導。 (LMArena)