goenhance logo

騰訊的混元影像 3.0 登頂 LMArena——一個開源模型

Cover Image for 騰訊的混元影像 3.0 登頂 LMArena——一個開源模型
Hannah

GoEnhance 新聞室 — 2025 年 10 月 5 日(PT)

在開源 AI 的里程碑中,騰訊的 混元影像 3.0 已經攀升至 LMArena 文本生成影像排行榜的第一名,超越了 Google 的"納米香蕉"(Gemini 2.5 Flash Image Preview)和字節跳動的 Seedream——基於人類盲選投票的結果。(LMArena)

發生了什麼

  • 排行榜震盪: LMArena 的即時排行榜現在列出 混元影像 3.0 位居 26 個模型中的首位,其排名由數百萬用戶投票驅動,而非合成基準測試。(LMArena)
  • 迅速崛起: 騰訊混元團隊和 LMArena 都在週末宣布登上第一名,稱這是"一項重大成就"。(X(前身為 Twitter))
  • 開源且新鮮: 該模型的 代碼和權重 在 9 月底發布,並迅速攀升至社區排行榜。(GitHub)

混元影像橫幅

為什麼重要

  • 社區的勝利: 一個 開源、商業級 的模型現在領先於一個 人類偏好的競技場,這個競技場長期以來由專有系統主導——對於重視透明度和自我託管的建設者來說,這是一個拐點。(LMArena)
  • 生產就緒的感覺: 早期測試者強調 清晰的文本渲染強大的語義控制一致的美學效果——這些是開源模型傳統上落後的領域。(Skywork)

技術細節(快速概述)

  • 原生多模態,MoE 設計: 混元影像 3.0 使用了一個大型 專家混合(≈80B 參數總數,~13B 每個 token 活躍) 架構,將 語言理解與影像生成 統一在一個自回歸 transformer 中——無需單獨的文本編碼器。(Hugging Face)
  • 廣義因果注意力: 文本 token 遵循因果(類似 LLM)注意力,而影像 token 則獲得全局上下文——改善了影像中的 推理對齊空間一致性。(arXiv)
  • 2D 位置編碼與自動形狀: 該模型引入了 2D RoPE 用於影像,並且可以從上下文中 預測長寬比/分辨率,即使您未指定——對於創意工作流程非常方便。(arXiv)

目前缺失的功能

騰訊確認 目前發布的版本專注於文本生成影像影像編輯、影像到影像以及多輪交互計劃在未來版本中推出。如果您依賴編輯操作(填充、修飾、風格轉換),在生態系統趕上之前請保持現有工具鏈。(Futu News)

對 GoEnhance 創作者的影響

  • 更好的排版與長提示控制: 如果您的活動需要 海報級文本密集的創意簡報,混元 3.0 的優勢直接映射到 廣告創意、關鍵藝術和包裝展示的使用場景。(Skywork)
  • 開源部署路徑: 自託管團隊可以根據早期採用者提到的開源權重和 MoE 效率技巧評估延遲/成本權衡。(GitHub)

試用 / 跟蹤

  • 查看排行榜和示例,在 LMArena 的文本生成影像板塊。(LMArena)
  • 探索模型卡和權重,在 Hugging Face官方 GitHub 上了解設置細節和更新。(Hugging Face)
  • 騰訊混元的官方公告與亮點,在 X 上查看。(X(前身為 Twitter))

編者按(GoEnhance)

我們正在我們的內部基準測試套件中評估混元影像 3.0,與 Flux、Seedream 系列模型及其他模型一起。現在,您可以繼續使用我們的 AI 影像生成器視頻工具進行創作,我們將在集成準備就緒時分享更新。

來源:LMArena 排行榜和公告;騰訊混元帖子;Hugging Face 模型卡;GitHub 存儲庫;第三方技術評論和報導。 (LMArena)