NemoStation Marlin-2B Video VLM Releases

TL;DR

NemoStationチームは、動画内の「何が（What）」起きたかと「いつ（When）」起きたかの抽出に特化した2BパラメータのビデオVLM「Marlin-2B」を発表した。本モデルはQwen2.5-2Bをベースにチューニングされており、秒単位のシーン記述と時間範囲特定（Temporal Grounding）において、大容量の競合モデルを破り、2Bクラス最高精度を達成している。

Quick Facts

モデルサイズ: 2B（総パラメータ数約2.72B）の極小設計
主要機能: 動画内のシーン＋イベント記述（秒単位タイムスタンプ付き）、および自然言語クエリによる動画内の範囲検索（スタート・エンド検知）
ベンチマーク実績: CaReBench、DREAM-1K（動画キャプション）の2B部門首位。TimeLens-BenchにおいてQwen2.5-VL-7Bを+6.4 mIoU上回り、Gemini-2.0-Flashに匹敵
デプロイ互換性: vLLMおよびswift-deployに対応。民生用GPU1枚でローカル動作が可能

映像データを有効活用したい開発者にとって、最大の懸案は「動画全体から必要な箇所を見つけ出し、構造化するコスト」である。NemoStationがリリースしたMarlin-2Bは、わずか2Bのパラメータサイズでありながら、商用クラウドAIに匹敵する精度で時間指定のイベント分析をローカル実行できる能力を備えている。

Marlin-2Bの主要機能：「何が」「いつ」起きたか

Marlin-2Bは、以下の2つの主要な課題にフォーカスして設計されている。

Scene + Event キャプショニング: 動画の中で起きている変化を検知し、自動的に秒単位のタイムスタンプ付きで構造化されたテキスト（キャプション）を出力する。
範囲特定（Temporal Grounding）: 「男性がカギを落とした箇所はどこ？」といった自然言語の質問（クエリ）に対し、動画内の特定の区間（例: 01:23 - 01:27）を時間範囲として返す。

[動画ファイル (MP4など)] ──► [Marlin-2B]
                                │
        ┌───────────────────────┴───────────────────────┐
        ▼ (キャプション機能)                             ▼ (時間定位検索機能)
[00:12 - 00:15] 男性が部屋に入る                 問: 「男性が書類を置いたのはいつ？」
[00:16 - 00:20] 机の上に書類を置く               答: [00:16 - 00:20]

小型化と最高精度の両立

Marlin-2Bは、テンセント（Tencent）が提唱する動画時間定位ベンチマーク「TimeLens-Bench」で極めて良好な結果を示した。

ActivityNetやQVHighlights等を含むテストにおいて、Marlin-2Bはよりパラメータサイズが遥かに大きいQwen2.5-VL-7Bを+6.4 mIoUという大差で破り、最先端のクローズドモデルである「Gemini-2.0-Flash」と同等の定位精度に達した。また、精緻な映像記述を測る「CaReBench」および「DREAM-1K」リーダーボードでも、2Bクラスのオープンモデル部門でトップを獲得している。

開発者フレンドリーなデプロイ設計

Marlin-2Bの使いやすさは、推論APIのシンプルさにも表れている。HuggingFaceの `transformers` を使って数行のPythonコードで記述できる他、APIの戻り値として、独自にパースされた辞書（Dict）を返す便利なメソッド群（ `.caption()` と `.find()` ）が標準提供されている。

また、`vLLM` や `swift-deploy` を使ったコンテナデプロイが初期段階からサポートされているため、開発者は特別なインフララッパーを書くことなく、自社システムに容易に動画理解モジュールを組み込める。

日本企業への影響と日本から見た意味

日本国内の多くの現場（スマート工場での作業手順の監査、ドライブレコーダーや監視カメラ映像からの特定イベント抽出、セキュリティアラート自動化）では、毎日膨大な動画データが蓄積されている。しかし、これらをすべてクラウドの動画VLMに送信することは、回線帯域の負荷や莫大なAPI使用料、データ保持の観点から非現実的であった。

Marlin-2Bは、一般的な安価なグラフィックボード（GeForce RTXシリーズなど）1枚で数FPS以上の速度で動画を処理できる。この「超省リソース・高精度」という特性は、日本の中小企業や地方の工場でも手軽に「映像のAI構造化DX」をローカル環境で推進できる強力な機会を提供する。

次に見る指標

エッジデバイス（Jetson等）での処理フレームレート: リアルタイム監視カメラシステムへの組み込み可能性
Gradioデモから商用システムへの統合コスト: `.caption()` / `.find()` のレスポンス安定性とデータ構造の安定度
タイムスタンプの解像度向上: 1秒未満のより細かいイベント特定におけるエラー発生率

よくある質問 (FAQ)

Q: 2Bサイズということで、解像度や映像フレーム数は制限されますか？: A: 一般的なVLMと同様、入力フレーム数は事前定義された範囲（例えば16〜64フレーム程度）にサンプリングされますが、Qwen2.5-2Bのビジョンアライメント技術を継承しているため、長尺動画に対しても重要な瞬間を落とさずに高精度に処理できます。
Q: 利用可能なライセンス形態はどうなっていますか？: A: Apache 2.0 ライセンスで公開されており、商用利用を含めて自由に利用・改変・インフラ統合を行うことができます。
Q: 日本語による質問（クエリ）で動画の特定区間を探すことは可能ですか？: A: ベースが英語に強く調整されているため、第一段階としては英語クエリの使用が推奨されますが、翻訳器（Translation Pipeline）を噛ませて時間範囲を取得する構成であれば、ローカルで容易に日本語対応の映像検索システムを組むことができます。