中国のローカル生活サービスおよびデリバリー最大手「美団(Meituan)」のAI開発チームは、AIオープンソースプラットフォーム「ModelScope(魔搭社区)」にて、最新の画像・映像ベースのバーチャルキャラクター動画生成(Image-to-Video / Video Avatar)モデル「LongCat-Video-Avatar-1.5」を公開した。
総パラメータ数は 354.3億(35.43B) に達し、オープンソースで公開されている映像生成・Diffusersベースのバーチャルアバターモデルとしては屈指の規模を誇る。
なぜデリバリー巨人の美団が「35B動画生成モデル」を自社開発・公開するのか
美団のビジネスモデルの中核は、レストラン、美容院、ホテル、小売店といった無数の「オフライン店舗」と一般消費者をつなぐプラットフォームプラットフォームである。同社のサービス構造を理解すると、この巨大動画モデル開発の極めて明確な商業的意図が見えてくる:
- 店舗マーケティングの自動化: 小規模なオフライン店舗にとって、プロモーション用のショート動画作成やライブコマース配信は広告・集客における必須手段である。しかし、プロの役者を雇い、カメラマンを配備して動画を撮影するコストは非常に高い。 LongCat-Video-Avatar-1.5は、店主がスマートフォンのカメラで撮影した人物画像(あるいは店舗外観の写真)を1枚入力するだけで、事前に用意したテキストスクリプト通りに自然に話し、動く「プロ顔負けのバーチャル店舗アバター(ライブコマース配信者)」を自動生成できる。
- 圧倒的なアバター品質と安定性(35.43Bの恩恵): アバター生成においてユーザーに違和感(不気味の谷)を与えないためには、表情、口元の動きと音声の同期、微細なジェスチャー、背景との馴染みのレベルが極めて高くなければならない。美団は35.43Bという破格のスケールと高品質な独自動画データセットを用いることで、個人のスマートデバイス上での推論であっても「極めて自然で本物と見紛うレベル」の店舗アバター動画生成を達成した。
オープンソース(ModelScope / Diffusers)化によるエコシステム支配
美団はこの最高水準の動画・アバター生成技術を自社製品内に囲い込むのではなく、ModelScopeを通じて開発コミュニティへ無償公開した。ライセンスはオープンな利用を促す体系となっており、Diffusersライブラリとシームレスに結合してあらゆる開発環境(PyTorch)で即使えるよう整備されている。
この背景には、独自にモデルを構築する開発者を巻き込み、店舗プロモーションやマーケティングツールのデファクトスタンダード(業界標準)を美団発の技術で握るという、プラットフォームならではのエコシステム戦略が存在する。
日本企業から見た意味と商業応用へのインパクト
美団のこの動きは、日本の小売・外食、Eコマース、広告代理店などの現場に対して、直接的かつ強烈なパラダイムシフトを予告している。
日本では依然として、AIアバターやライブコマース用キャラクターの制作は専門のベンダーに数万〜数十万円で発注するのが一般的である。しかし、美団のようなサービス事業者が「35Bクラスの極めて高性能な画像・映像アバター生成モデル」をオープンソースで公開したことにより、独自のサーバーやローカルGPUがあれば、無制限かつ無償に近いコストで、誰でも高品質な動画広告やインタラクティブアバターを作成できる民主化が一気に進むことになる。
日本企業は、単に「先進的な動画モデルが登場した」と見るのではなく、これがオフライン店舗や地域密着型サービスのマーケティングコストをどれほど劇的に引き下げるか、そしてそれを利用した自律型ECシステムがどのように進化するかという「社会実装の構造変化」を注視すべきである。