
TL;DR
ショート動画プラットフォーム大手の快手(Kuaishou)のAIチームは、長尺動画理解と高度な自律エージェント能力を統合した30Bクラスのマルチモーダルモデル「Keye-VL-2.0-30B-A3B」を公開した。本モデルは、**DeepSeek Sparse Attention (DSA)**をマルチモーダルモデルとして初めて本格本番環境に導入。256kトークンの超長文コンテキストにおいて、情報の損失のない映像理解と精緻な時間特定(Temporal Grounding)を実現している。
Quick Facts
- アーキテクチャ: 30Bクラスの Mixture-of-Experts (MoE) 設計、アクティブ約3Bパラメータの極めて高効率な推論モデル
- 文脈ウインドウ: 256,000トークンの超長文対応。数時間に及ぶ動画データを処理可能
- 核心インフラ技術: DeepSeek Sparse Attention (DSA)、ExtraIO、ヘテロジーニアスViT-LM並列化、カスタムカーネルの統合
- 主要スコア: LongVideoBenchにて74.1を獲得し200B超のオープンソースモデルを凌駕。QVHighlights(動画シーン特定)でGemini 3 Flashを超えるスコアをマーク
映像コンテンツの自動インデックス化、特定の出来事の秒単位での検知、監視ログの自然言語分析など、実用に足るビデオ大モデルの需要が高まる中、最大の障害は「超長時間動画に伴う膨大な計算コスト」であった。快手が発表したKeye-VL-2.0-30B-A3Bは、この計算負荷を最新アテンション機構で劇的に削減した。
Keye-VL-2.0の特徴:DSAの本番実戦投入
Keye-VL-2.0-30B-A3Bは、アテンションの計算量を抑制するDeepSeek Sparse Attention (DSA)を標準実装している。スパース・アテンションと独自の動的特徴量アグリゲーション(集約)を用いることで、映像のフレーム数が数百から数千に増大しても精度劣化が起きず、むしろ入力される情報が増えるほど時間軸の局所化精度が高まる特性を持つ。
これにより、256,000トークンの極限環境において、ほぼ情報ロスなしで「映像内のどこで何が起きているか」を論理的に整理できる。
[数時間・数千フレームの超長尺動画入力]
│
▼ (ExtraIO 高速アライメント)
[DeepSeek Sparse Attention (DSA) 処理]
- 特徴アグリゲーションで計算量を抑制
- 256K コンテキスト内の無劣化推論
│
▼ (MoE ゲート: 30B総 / 3Bアクティブ)
[時間軸検出 (TimeLens-Bench)] / [コード・ツール・検索 Agent]
超長文インファレンスとトレーニングスタックの最適化
超長尺シーケンスのプリフィル(初期テキスト/画像ロード)コストを削減するため、Keyeチームは以下の最適化技術をスタックとして構築した。
- ExtraIO: 高速なI/Oアライメントと映像特徴量アグリゲーション。
- ヘテロジーニアスViT-LM並列化: ビジョンエンコーダー(ViT)とデコーダー(LM)の負荷の偏りを解消する不均一分散並列処理。
- カスタムGPUカーネル: SGLang(カスタムブランチ)やDeepGEMMと緊密に統合された、Hopper世代GPU向けの演算最適化。
実証された動画ベンチマークスコア
動画理解と時間特定の評価である「TimeLens-Bench」において、Keye-VL-2.0-30B-A3Bは並外れた数値を叩き出している。
- ActivityNet-TimeLens: 58.5 mIoU(Gemini 3 Flashの56.95を超える)
- QVHighlights-TimeLens: 70.1 mIoU(Gemini 3 Flashの49.45を圧倒)
- LongVideoBench: 74.1(Qwen3.5-35B-A3Bや、より巨大なQwen3-VL-235B-A22Bを上回る長尺動画スコア)
- VideoMME V2: 入力フレーム数を64枚から512枚へ増加させた際、精度が35.3%から42.4%へ向上。入力情報が多いほど推論が安定することを示した。
組み込みエージェント協調メカニズム
本モデルは単純な動画要約にとどまらず、映像情報をもとにコード生成、外部ツール呼び出し(API実行)、Web検索を組み合わせてタスクを自動実行する「マルチモーダルAgent」としての動作がビルトインされている。これにより、GUI操作ログの動画からテストコードを生成したり、監視動画内の異常シーンから直接通知APIを叩くといった高度な自律フローが最初からサポートされている。
日本企業への影響と日本から見た意味
放送・メディア、監視・セキュリティ、ドローン映像分析などを展開する日本企業にとって、動画の理解・特定処理をクラウドの大規模商用APIに依存することは、帯域コストおよびデータの漏洩リスクの両面で大きなハードルだった。
Keye-VL-2.0-30B-A3Bは、オープンソース(SGLangやvLLM対応)でありながら、商用最高峰モデルに迫る時間軸特定精度を30B(実アクティブ3B)というローカル運用可能なスケールで達成した。これは、オンプレミスの映像解析サーバーの稼働効率を飛躍的に高めるパラダイムシフトとなる。
次に見る指標
- SGLangカスタムブランチでの実測レイテンシ: 256kトークンのロード時間と推論秒数
- DeepGEMMとの統合状況: Blackwell世代GPUにおけるDSA推論のさらなる加速効率
- 動画監視・自動要約プロダクトへの適用と実働耐久性
よくある質問 (FAQ)
- Q: なぜアテンションにDSA(DeepSeek Sparse Attention)を使うのですか?
- A: 通常のアテンションはシーケンス長(動画の長さ)の2乗で計算量とメモリ消費が増大しますが、DSAを適用することでメモリフットプリントを極限まで抑え、256kトークンの長文映像データでも処理が破綻しないようにするためです。
- Q: ローカルで動かす場合、どの程度のハードウェアが必要ですか?
- A: 総計30B、アクティブ3BのMoE構造なので、SGLang等の最適化推論エンジンを用いることで、一般的なエンタープライズGPU(A100 80G 1枚や、TP-size=2のL40S等)で高速に動画推論サーバーを構築できます。
- Q: 映像入力以外の、普通の画像認識や通常のOCRの精度はどうですか?
- A: 精緻にキュレーションされた事前学習データとKeye-VL-1.5ビジョンエンコーダーにより、図表、グラフ、テーブル、OCRなどの静止画インテリジェンスについても高い評価を得ています。