ERNIE 5.1正式版、複数ベンチマーク首位訴求をどう読むか

百度はERNIE 5.1を正式リリースし、複数のベンチマークで上位に入ったと発表した。公式ブログの表現では、ERNIE 5.1はERNIE 5.0の基盤を引き継ぎながら、文章生成、理解、業務系タスクでの性能を押し出している。

今回の見どころは、単に「中国モデルがまたランキングに入った」という話ではない。百度が訴求しているのは、モデル性能だけでなく、既存のERNIE 5.0からの改良、実装コスト、企業向け利用に耐えるかどうかという部分だ。日本企業が中国AIを見る際にも、ベンチマーク順位より運用費、応答品質、APIや業務ツールへの組み込みやすさのほうが判断材料になりやすい。

何が発表されたか

百度の公式ブログは、ERNIE 5.1を正式版として打ち出し、「複数のリーダーボードで首位級の結果を出した」と説明している。4月末に公開されたERNIE-5.1-Previewでは、LMArena Text leaderboardで中国モデル首位、世界13位に入り、Math、Legal & Government、Business / Management / Financial Ops、Software & IT Servicesでも上位に入ったとされていた。

5月の正式リリースは、このPreview段階の訴求を製品ラインとして進める動きと読める。百度にとっては、検索、文心一言、千帆大模型平台、PaddlePaddle周辺の開発者基盤とつなげられるかが重要になる。

ERNIE 5.0からの読み方

ERNIE 5.0は、テキスト、画像、動画、音声を統合的に扱うマルチモーダル基盤モデルとして発表されていた。今回のERNIE 5.1は、その大きな基盤を使いながら、より使いやすい形に性能と効率を寄せていく更新に見える。

Preview版の説明では、ERNIE 5.0の事前学習基盤を引き継ぎつつ、総パラメータを約3分の1、アクティブパラメータを約2分の1に圧縮し、同規模モデル比で事前学習コストを約6%に抑えたとされていた。正式版でもこの方向が維持されるなら、百度は「大きいモデル」よりも「使えるコストのモデル」を前面に出していることになる。

日本企業が見るべき点

日本企業にとって、LMArenaの順位は入口にすぎない。実際の導入では、日本語を含む多言語品質、社内文書での安定性、APIの価格、ログやデータの扱い、既存SaaSとの連携が効いてくる。

百度の強みは、モデル単体よりもプロダクト群との接続にある。検索、クラウド、開発基盤、業務向けAIの導線にERNIE 5.1が入っていくなら、中国AI企業の競争は「誰のモデルが一番強いか」から「どの業務面に一番早く組み込めるか」へ移っていく。

次に見る指標

次に確認したいのは、ERNIE 5.1がランキング上の存在感から実利用へ進むかどうかだ。API提供条件、推論コスト、開発者向けドキュメント、企業導入事例が出てくれば、今回の発表は単なるベンチマークニュースではなく、中国AIの商用実装スピードを測る材料になる。