中国テック番犬

Big Tech

美団「LongCat Video Avatar 1.5」公開:35Bパラメータが生み出す店舗マーケティング動画生成技術

美団(Meituan)は動画生成・バーチャルキャラクター合成モデル「LongCat Video Avatar 1.5」を発表。35.43Bの大規模パラメータを搭載し、ローカル生活サービスや店舗マーケティングの実務へ生成AIを組み込む同社の意図を解説。

美団「LongCat Video Avatar 1.5」公開:35Bパラメータが生み出す店舗マーケティング動画生成技術

中国のローカル生活サービスおよびデリバリー最大手「美団(Meituan)」のAI開発チームは、AIオープンソースプラットフォーム「ModelScope(魔搭社区)」にて、最新の画像・映像ベースのバーチャルキャラクター動画生成(Image-to-Video / Video Avatar)モデル「LongCat-Video-Avatar-1.5」を公開した。

総パラメータ数は 354.3億(35.43B) に達し、オープンソースで公開されている映像生成・Diffusersベースのバーチャルアバターモデルとしては屈指の規模を誇る。

なぜデリバリー巨人の美団が「35B動画生成モデル」を自社開発・公開するのか

美団のビジネスモデルの中核は、レストラン、美容院、ホテル、小売店といった無数の「オフライン店舗」と一般消費者をつなぐプラットフォームプラットフォームである。同社のサービス構造を理解すると、この巨大動画モデル開発の極めて明確な商業的意図が見えてくる:

  1. 店舗マーケティングの自動化: 小規模なオフライン店舗にとって、プロモーション用のショート動画作成やライブコマース配信は広告・集客における必須手段である。しかし、プロの役者を雇い、カメラマンを配備して動画を撮影するコストは非常に高い。 LongCat-Video-Avatar-1.5は、店主がスマートフォンのカメラで撮影した人物画像(あるいは店舗外観の写真)を1枚入力するだけで、事前に用意したテキストスクリプト通りに自然に話し、動く「プロ顔負けのバーチャル店舗アバター(ライブコマース配信者)」を自動生成できる。
  2. 圧倒的なアバター品質と安定性(35.43Bの恩恵): アバター生成においてユーザーに違和感(不気味の谷)を与えないためには、表情、口元の動きと音声の同期、微細なジェスチャー、背景との馴染みのレベルが極めて高くなければならない。美団は35.43Bという破格のスケールと高品質な独自動画データセットを用いることで、個人のスマートデバイス上での推論であっても「極めて自然で本物と見紛うレベル」の店舗アバター動画生成を達成した。

オープンソース(ModelScope / Diffusers)化によるエコシステム支配

美団はこの最高水準の動画・アバター生成技術を自社製品内に囲い込むのではなく、ModelScopeを通じて開発コミュニティへ無償公開した。ライセンスはオープンな利用を促す体系となっており、Diffusersライブラリとシームレスに結合してあらゆる開発環境(PyTorch)で即使えるよう整備されている。

この背景には、独自にモデルを構築する開発者を巻き込み、店舗プロモーションやマーケティングツールのデファクトスタンダード(業界標準)を美団発の技術で握るという、プラットフォームならではのエコシステム戦略が存在する。

日本企業から見た意味と商業応用へのインパクト

美団のこの動きは、日本の小売・外食、Eコマース、広告代理店などの現場に対して、直接的かつ強烈なパラダイムシフトを予告している。

日本では依然として、AIアバターやライブコマース用キャラクターの制作は専門のベンダーに数万〜数十万円で発注するのが一般的である。しかし、美団のようなサービス事業者が「35Bクラスの極めて高性能な画像・映像アバター生成モデル」をオープンソースで公開したことにより、独自のサーバーやローカルGPUがあれば、無制限かつ無償に近いコストで、誰でも高品質な動画広告やインタラクティブアバターを作成できる民主化が一気に進むことになる。

日本企業は、単に「先進的な動画モデルが登場した」と見るのではなく、これがオフライン店舗や地域密着型サービスのマーケティングコストをどれほど劇的に引き下げるか、そしてそれを利用した自律型ECシステムがどのように進化するかという「社会実装の構造変化」を注視すべきである。