美団「LongCat Video Avatar 1.5」公開：35Bパラメータが生み出す店舗マーケティング動画生成技術

中国のローカル生活サービスおよびデリバリー最大手「美団（Meituan）」のAI開発チームは、AIオープンソースプラットフォーム「ModelScope（魔搭社区）」にて、最新の画像・映像ベースのバーチャルキャラクター動画生成（Image-to-Video / Video Avatar）モデル「LongCat-Video-Avatar-1.5」を公開した。

総パラメータ数は 354.3億（35.43B） に達し、オープンソースで公開されている映像生成・Diffusersベースのバーチャルアバターモデルとしては屈指の規模を誇る。

なぜデリバリー巨人の美団が「35B動画生成モデル」を自社開発・公開するのか

美団のビジネスモデルの中核は、レストラン、美容院、ホテル、小売店といった無数の「オフライン店舗」と一般消費者をつなぐプラットフォームプラットフォームである。同社のサービス構造を理解すると、この巨大動画モデル開発の極めて明確な商業的意図が見えてくる：

店舗マーケティングの自動化：小規模なオフライン店舗にとって、プロモーション用のショート動画作成やライブコマース配信は広告・集客における必須手段である。しかし、プロの役者を雇い、カメラマンを配備して動画を撮影するコストは非常に高い。 LongCat-Video-Avatar-1.5は、店主がスマートフォンのカメラで撮影した人物画像（あるいは店舗外観の写真）を1枚入力するだけで、事前に用意したテキストスクリプト通りに自然に話し、動く「プロ顔負けのバーチャル店舗アバター（ライブコマース配信者）」を自動生成できる。
圧倒的なアバター品質と安定性（35.43Bの恩恵）：アバター生成においてユーザーに違和感（不気味の谷）を与えないためには、表情、口元の動きと音声の同期、微細なジェスチャー、背景との馴染みのレベルが極めて高くなければならない。美団は35.43Bという破格のスケールと高品質な独自動画データセットを用いることで、個人のスマートデバイス上での推論であっても「極めて自然で本物と見紛うレベル」の店舗アバター動画生成を達成した。

オープンソース（ModelScope / Diffusers）化によるエコシステム支配

美団はこの最高水準の動画・アバター生成技術を自社製品内に囲い込むのではなく、ModelScopeを通じて開発コミュニティへ無償公開した。ライセンスはオープンな利用を促す体系となっており、Diffusersライブラリとシームレスに結合してあらゆる開発環境（PyTorch）で即使えるよう整備されている。

この背景には、独自にモデルを構築する開発者を巻き込み、店舗プロモーションやマーケティングツールのデファクトスタンダード（業界標準）を美団発の技術で握るという、プラットフォームならではのエコシステム戦略が存在する。

日本企業から見た意味と商業応用へのインパクト

美団のこの動きは、日本の小売・外食、Eコマース、広告代理店などの現場に対して、直接的かつ強烈なパラダイムシフトを予告している。

日本では依然として、AIアバターやライブコマース用キャラクターの制作は専門のベンダーに数万〜数十万円で発注するのが一般的である。しかし、美団のようなサービス事業者が「35Bクラスの極めて高性能な画像・映像アバター生成モデル」をオープンソースで公開したことにより、独自のサーバーやローカルGPUがあれば、無制限かつ無償に近いコストで、誰でも高品質な動画広告やインタラクティブアバターを作成できる民主化が一気に進むことになる。

日本企業は、単に「先進的な動画モデルが登場した」と見るのではなく、これがオフライン店舗や地域密着型サービスのマーケティングコストをどれほど劇的に引き下げるか、そしてそれを利用した自律型ECシステムがどのように進化するかという「社会実装の構造変化」を注視すべきである。