MeituanのZero-Shot音声クローン「LongCat-AudioDiT」が音声AI市場を変える

TL;DR: MeituanのLongCat-AudioDiTは、Zero-Shot音声クローンを可能にし、音声AI市場の技術的上限を押し上げています。

音声合成は長年、テキスト→音声への変換過程で情報が失われる「中間表現減衰」問題に悩まされてきました。Meituanが発表したLongCat-AudioDiTは、ゼロサンプルでの音声クローンを可能にし、業界の技術的上限を押し上げます。

LongCat-AudioDiTの概要と技術的突破口

LongCat-AudioDiTは、テキストから直接波形空間へ音声を生成するZero-Shot TTSモデルです。従来のテキスト→音素→波形という多段階パイプラインを排除し、情報減衰を根本的に防ぎます。

モデルは1億（1B）と3.5億（3.5B）パラメータの2バリエーションを提供し、どちらも同一アーキテクチャで実装されています。公開されたコードはGitHubとHuggingFaceでフルオープンソース化され、研究者がすぐに再現・改良できる環境が整っています。

このアプローチは、音声合成の品質向上だけでなく、カスタム音声の迅速なプロトタイピングや多言語展開を加速させ、AIスピーカーやナビゲーションシステムへの応用が期待されます。

LongCat-AudioDiTは、波形圧縮器としてWav-VAE、生成コアとしてDiT（Diffusion Transformer）を組み合わせた二層構造です。Wav-VAEは24kHzの波形を約11.7Hzの帯域まで圧縮し、2000倍以上のデータ削減を実現します。

圧縮後の潜在表現はDiTに入力され、拡散過程で高品質な波形を復元します。DiTは自己注意機構を活用し、長期依存関係を正確に捉えることで、音声の自然さと個性を同時に保持します。

このシンプルさは学習コストの削減にも寄与し、少数のGPUで数日間のトレーニングで実用レベルのモデルが完成する点が、スタートアップや中小企業にとって大きな魅力です。

Meituanは独自のSeedベンチマークでLongCat-AudioDiT-3.5Bの性能を検証しました。Seed-ZHでは類似度SIM 0.818、Seed-Hardでは0.797を取得し、同カテゴリのSeed-TTS、CosyVoice3.5、MiniMax-Speechをすべて上回ります。

これらの数値は、音声クローンが元音声の音色・抑揚・話者固有の特徴を高精度で再現できることを示しています。特にZero-Shot設定での高SIMは、事前学習データに依存しない汎用性の高さを裏付けます。

実験は中国国内の多様な話者データセットで実施され、結果はarXiv論文（2603.29339v1）に詳細が掲載されています。これにより、学術界でも本モデルの再現性が保証されています。

LongCat-AudioDiTは同日公開と同時にコードとモデルがオープンソース化され、研究者・開発者が自由に利用できる環境が整いました。これにより、音声合成技術の民主化が加速し、国内外のAIスタートアップが独自の音声サービスを迅速に構築できるようになります。

オープンソース化のインパクトは、主要プレイヤーへの技術的波及として以下の表にまとめられます。

さらに、APG（Adaptive Prompt Guidance）方式で従来のCFG（Classifier-Free Guidance）を置き換え、生成品質と安定性を同時に向上させた点が、商用プロダクトへの採用ハードルを下げています。

従来のTTSは「中間表現」＝音素列やスペクトログラムを経由するため、話者固有のニュアンスが失われやすいという課題がありました。LongCat-AudioDiTは波形空間で直接生成することで、この情報減衰を根本的に解消します。

実装上は、Wav-VAEが波形を高次元潜在ベクトルに圧縮し、DiTがその潜在ベクトルを拡散的にデノイズして元の波形を復元します。これにより、音色・抑揚・呼吸音までが忠実に再現され、ゼロサンプルでも高い類似度が得られます。

この技術は、パーソナライズド音声広告や障がい者向け支援技術、さらには映画・ゲームのダイアログ自動生成といった新たなユースケースを創出し、音声AI市場の拡大を牽引する可能性があります。

日本の音声AI企業は、音声合成の品質向上と多言語対応が課題です。LongCat-AudioDiTのZero-Shotクローンは、少量のデータで高品質な日本語音声を生成できる可能性を示唆しています。

オープンソース化により、国内スタートアップはモデルをローカライズしやすく、音声ナビやAIスピーカー、教育コンテンツへの組み込みが加速するでしょう。また、APG方式は日本語特有の敬語や抑揚表現にも柔軟に対応できる点が期待されます。

今後は、Meituanと日本企業の協力が進み、LongCat-AudioDiTの技術が日本市場で活用されることが期待されます。

LongCat-AudioDiTは、音声AI市場の技術的上限を押し上げ、産業への波及効果をもたらす可能性を秘めています。将来的には、音声クローンの技術がさらに進化し、人間の音声と区別がつかないレベルまで達する可能性もあります。

Q: LongCat-AudioDiTは何ですか？

A: LongCat-AudioDiTは、Meituanが開発したZero-Shot音声クローン技術です。

Q: LongCat-AudioDiTの特徴は何ですか？

A: LongCat-AudioDiTは、波形空間で直接音声を生成することで、情報減衰を根本的に解消します。また、Wav-VAEとDiTのシンプル構造により、学習コストの削減にも寄与します。

Q: LongCat-AudioDiTの応用例は何ですか？

A: LongCat-AudioDiTの応用例として、音声ナビ、AIスピーカー、教育コンテンツ、パーソナライズド音声広告、障がい者向け支援技術などがあります。