
AI大モデル(大規模言語モデル)の進化を競うシリコンバレーや世界のテック企業において、NVIDIAの「H100」や「H200」といった最先端GPUは事実上の標準(デファクトスタンダード)として君臨してきました。しかし、輸出規制やサプライチェーンの地政学的リスクに直面する中、独自のインフラ構築を迫られた中国の生活情報サービス・デリバリー大手である**美団(Meituan)**は、極めて野心的なブレイクスルーを発表しました。
美団は、最新の超巨大AIモデル**「LongCat-2.0」をリリースし、そのモデルパラメータ数が1兆規模(1 Trillion Parameters)に達したことを明らかにしました。そして技術的に最も重要な点は、このモデルの「事前学習(トレーニング)」から「実サービスでの推論(インファレンス)」に至るまでの全プロセスが、中国の国産半導体AIチップのみで完結している**という事実です。
1. 「国産チップ」での1兆パラメータ学習という技术的障壁
1兆パラメータ規模のニューラルネットワークを学習させるには、数千から数万個のGPUを高速なインターコネクトで接続し、ペタバイト級のデータを并列処理する極めて高度なインフラが必要です。NVIDIAの「NVLink」のような超高速通信帯域や成熟したソフトウェアエコシステム(CUDA)が存在しない国産AIチップ環境では、この規模の学習は以下の障壁によりほぼ不可能とされてきました。
- チップ间通信のボトルネック:個々の国産チップの演算性能が向上しても、チップ間を繋ぐネットワーク帯域が不足し、同期処理の待ち時間で全体の学習効率が著しく低下する。
- ソフトウェアおよびコンパイルスタックの未成熟:CUDA以外のコンパイラや最適化ツールキット(PyTorch等のオープンフレームワークとの統合)が未発達であり、メモリリークや並列化エラーが頻発する。
美団はこの課題に対し、チップメーカーと共同でハードウェアとソフトウェアを最適化する「共同設計(Co-Design)」を実施。独自の超高速通信プロトコルと、国産チップのメモリ特性に最適化した3次元並列(テンソル並列・パイプライン並列・データ並列)アルゴリズムを開発しました。
これにより、通信ロスを最小限に抑え、国産算力(コンピューティングパワー)上でのクラスタ全体の有効性能比(MFU:Model Flops Utilization)を実用レベルまで引き上げることに成功しました。
2. 訓練から推論までの「完全なクローズドループ」の達成
大モデルの運用において、学習と同様にコストと難易度が高いのが、本番環境での「推論」処理です。1兆パラメータのモデルをそのまま稼働させると、膨大なメモリ消費と遅延(レイテンシ)が発生し、美団が手がける秒単位のデリバリー配送アルゴリズムやリアルタイムのカスタマーサポートには使用できません。
美団は、LongCat-2.0を国産AIチップの推論処理エンジンにネイティブに適合させるため、以下のチューニングを行いました。
- 混合精度・量子化によるメモリ削減: 国産半導体のハードウェアアクセラレータに最適化されたFP4/FP8混合精度でのコンパイルを実行。モデル精度を維持したまま、推論に必要なメモリ容量を劇的に圧縮しました。
- トレーニング・推論のクローズドループ構築: 開発パイプラインを国産チップスタック上に完全に統合したことで、モデルの微調整(ファインチューニング)から本番デプロイまでのリードタイムを大幅に短縮。
これにより、フードデリバリー配達员(配達員)のリアルタイム最適ルート計画や、何百万もの店舗・レストランのパーソナライズ推薦エンジン、店舗向けのAI顧客対応アシスタントにおいて、外部の制約を受けることなく自律的に運営できるAIサービス基盤を確立しました。
3. 「制約」がもたらす独自イノベーションの未来
美団のLongCat-2.0の成功は、単に「規制を乗り越えた」という点に留まりません。ハードウェアの限界をソフトウェアの徹底的な最適化で補うという、中国テック企業独自の「適応戦略」が成熟していることを示しています。
これまで「半導体性能の向上」に依存して力任せにスケールさせてきたAI開発に対し、チップの物理的な制約を前提とした「アルゴリズムとコンパイルスタックの高度化」というアプローチは、結果として極めてエネルギー効率が高く、低コストなAIシステムの構築手法を生み出しています。
物理世界(デリバリーや店舗運営)のリアルなインフラとAIを結合する生活プラットフォーム giant として、美団は算力の自給自足という極めて高度な自主権を確立しました。
4. パラメータスケールと学習インフラの比較
LongCat-2.0と他モデルの学習条件・インフラのポジショニング比較は以下の通りです。
| 項目 | Meituan LongCat-2.0 | 米国メガテック系LLM | 従来の国産チップモデル |
|---|---|---|---|
| パラメータ規模 | 1兆規模(MoE/Dense混合) | 1兆〜数兆規模 | 数百億〜千億規模 |
| 学習用半導体インフラ | 完全国産AI半導体(独自通信) | NVIDIA H100 / H200等 | 一部国産+制限付きGPU |
| 通信ボトルネック対策 | 独自3次元並列アルゴリズム | NVLink / InfiniBand標準 | ソフトウェア最適化なし |
| 主な実務応用 | 物流ルート計画、自動配車、店舗AI | Web検索、汎用アシスタント | 実務での実証実験フェーズ |
| エコシステム独立性 | トレーニング・推論の完全クローズドループ | 規制の影響なし(自国インフラ) | 推論のみローカル対応 |
[!TIP] 【編集部解説】ハードウェアの「制約」が育てるソフトウェアのイノベーション NVIDIAの圧倒的なインフラとCUDAエコシステムに依存できる環境は開発者にとって快適ですが、それが断たれた環境で開発を続ける中国勢は、コンパイラやカーネルレベルの最適化において極めて泥臭く強固な技術力を蓄積しています。美団が1兆パラメータモデルの完全なローカル学習と推論の閉環を証明したことは、今後の半導体競争において「ハードウェアの性能差」を「ソフトウェアの最適化」で相殺できる時代が到来したことを如実に示しています。
[!NOTE] 美団のAI技術方針について 美団のAIテクノロジーと、本発表に関するオフィシャルな技術開示については、美団技術チーム公式発表 および技術ブログのアーカイブリソースをご参照ください。
コメント
...