goenhance logo

TencentのHunyuan Image 3.0がLMArenaでトップに—オープンソースモデル

Cover Image for TencentのHunyuan Image 3.0がLMArenaでトップに—オープンソースモデル
ハンナ

GoEnhanceニュースルーム — 2025年10月5日 (PT)

オープンソースAIの画期的な出来事として、TencentのHunyuan Image 3.0LMArenaのテキストから画像生成リーダーボードで#1に浮上し、Googleの「nano-banana」(Gemini 2.5 Flash Image Preview)やByteDanceのSeedreamなどの注目モデルを抑えました。これは人間によるブラインド投票バトルに基づいています。(LMArena)

何が起きたのか

  • リーダーボードの変動: LMArenaのライブボードでは、hunyuan-image-3.0が26モデル中トップに位置し、ランキングは合成ベンチマークではなく数百万のユーザー投票によって決定されています。(LMArena)
  • 急速な上昇: Tencent HunyuanチームとLMArenaは週末に#1への浮上を発表し、「大きな成果」と呼びました。(X (旧Twitter))
  • オープンソース&新鮮: モデルのコードとウェイトは9月末に公開され、コミュニティチャートで急速に上昇しました。(GitHub)

hunyuan image banner

なぜ重要なのか

  • コミュニティの勝利: オープンソースの商業グレードモデルが、長らく独自システムが支配していた人間の好みのアリーナでトップに立ちました。これは透明性とセルフホスティングを重視する開発者にとって重要な転換点です。(LMArena)
  • 実用性のある性能: 初期テスターは、鮮明なテキストレンダリング強力なセマンティックコントロール一貫した美的品質を強調しており、これらは従来オープンモデルが遅れを取っていた分野です。(Skywork)

内部構造 (簡易解説)

  • ネイティブマルチモーダル、MoE設計: Hunyuan Image 3.0は、大規模な**Mixture-of-Experts (総計約80Bパラメータ、トークンごとに約13Bがアクティブ)**アーキテクチャを使用し、言語理解と画像生成を単一のオートレグレッシブトランスフォーマーで統合しています—別個のテキストエンコーダーは不要です。(Hugging Face)
  • 一般化因果注意: テキストトークンは因果(LLMスタイル)注意を採用し、画像トークンはグローバルコンテキストを取得—これにより推論の整合性画像の空間的一貫性が向上します。(arXiv)
  • 2D位置エンコーディング&自動形状: モデルは画像に2D RoPEを導入し、指定しない場合でもコンテキストからアスペクト比/解像度を予測可能—クリエイティブなワークフローに便利です。(arXiv)

現時点での欠点

Tencentは、現在公開されているビルドはテキストから画像生成に焦点を当てていると確認しています。画像編集、画像から画像生成、マルチターンインタラクションは将来のバージョンで予定されています。編集操作(インペインティング、リタッチ、スタイル転送)を必要とする場合、エコシステムが追いつくまで既存のツールチェーンを維持してください。(Futu News)

GoEnhanceクリエイターへの影響

  • 優れたタイポグラフィ&長文プロンプト制御: キャンペーンでポスターグレードのテキスト密度の高いクリエイティブブリーフが必要な場合、Hunyuan 3.0の強みは広告クリエイティブ、キーヴィジュアル、パックショットのユースケースに直接対応します。(Skywork)
  • オープンソースの展開パス: セルフホスティングチームは、オープンウェイトとMoE効率のトリックを活用した初期採用者によるレイテンシ/コストのトレードオフを評価できます。(GitHub)

試す / 追跡する

  • ライブランキングと例を確認するには、LMArenaのテキストから画像生成ボードへ。(LMArena)
  • モデルカード&ウェイトを探索するには、Hugging Face公式GitHubでセットアップ詳細と更新を確認してください。(Hugging Face)
  • 公式発表&ハイライトはTencent HunyuanのXで。(X (旧Twitter))

編集者の注記 (GoEnhance)

私たちは、Flux、Seedreamファミリーモデルなどと並行して内部ベンチマークスイートでHunyuan Image 3.0を評価しています。現時点では、AI画像生成ツールおよびビデオツールを使用して制作を続けることができ、統合が生産準備が整い次第、更新を共有します。

情報源: LMArenaリーダーボードと発表; Tencent Hunyuan投稿; Hugging Faceモデルカード; GitHubリポジトリ; 第三者による技術レビューと報告. (LMArena)