PaddleOCR-VL-1.5とERNIE-5.0シリーズの比較：文書OCRと大規模言語モデルの最新動向

TL;DR: PaddleOCR-VL-1.5は0.9Bパラメータで94.5%の正確度を実現し、Real5-OmniDocBenchの全シナリオでSOTAを更新。一方、ERNIE-5.0シリーズはLMArenaのテキスト・数式ベンチマークで世界トップクラスのスコアを獲得し、言語理解と創造性で先行しています。

PaddleOCR-VL-1.5：0.9Bパラメータ、OmniDocBench v1.5で94.5%精度
Real5-OmniDocBench：スキャン・歪み・照明5種の実環境ロバスト性評価で全モデル最高
ERNIE-5.0-0110：LMArena Textで1,460点、Mathで世界第2位
両モデルとも中国国内でオープンソース化され、エンタープライズ向けAPIが提供中

文書デジタル化の需要が加速する中、AIが画像とテキストを同時に理解できるかどうかは企業の競争力を左右する重要指標です。Baiduが同時期にリリースしたPaddleOCR-VL-1.5とERNIE-5.0シリーズは、視覚-言語統合と純粋言語理解という別軸で世界トップクラスの性能を示しています。本稿では、正確度・ロバスト性・多言語対応・エコシステムの四つの評価軸で両者を比較し、どのような前提条件で差が生まれるかを明らかにします。

1. モデル概要と評価軸の設定

PaddleOCR-VL-1.5は0.9Bのパラメータ規模を持つVision-Language Model（VLM）で、文書画像からテキスト・表・数式までを一括で認識します。評価軸は「認識精度」「物理的歪み耐性」「多言語・特殊文字対応」「導入コスト」の四点です。

ERNIE-5.0-0110とERNIE-5.0-Preview-1203は大規模言語モデル（LLM）で、テキスト生成・推論・数学問題解決に特化しています。評価軸は「テキスト理解スコア」「数式推論順位」「創造的生成能力」「プラットフォーム互換性」です。

この二つのモデルは同じBaiduエコシステム内で提供される点が共通していますが、対象タスクと評価指標が根本的に異なるため、直接的な「どちらが強いか」ではなく、利用シーン別に最適解が変わります。

2. 精度とベンチマーク比較

PaddleOCR-VL-1.5はOmniDocBench v1.5で94.5%の正確度を記録し、前バージョンを2.3%上回りました。特に表・数式認識で3.1%の改善が見られ、実務文書の自動化に直結します。

一方、ERNIE-5.0-0110はLMArenaのTextリーダーボードで1,460点、世界第8位、かつ中国モデルトップです。Mathリーダーボードでは世界第2位にランクインし、複雑な数式推論で高い汎用性を示しています。

精度比較の裏付けとして、両ベンチマークはそれぞれ独立した評価基盤であり、直接的なスコア換算はできませんが、文書OCRではPaddleOCR-VL-1.5が、純粋テキスト・数式タスクではERNIE-5.0シリーズがトップクラスであることが分かります。

3. ロバスト性と実環境シナリオ

Real5-OmniDocBenchはスキャンアーティファクト、傾斜、歪み、画面撮影、照明変化の5つの実世界シナリオを網羅し、PaddleOCR-VL-1.5は全シナリオで従来モデルを上回るSOTA成績を収めました。

具体的な数値は、スキャンシナリオで96.2%、歪みシナリオで93.8%の認識率を示し、同条件下のオープンソースOCR（Tesseract等）は平均84%前後に留まります。

ERNIE-5.0シリーズはテキスト入力のノイズ耐性を評価するベンチマークは公開されていませんが、LMArenaのHard Promptカテゴリで上位に入ることから、プロンプト設計の揺らぎに対しても一定のロバスト性が期待できます。

4. 多言語・特殊文字対応の深さ

PaddleOCR-VL-1.5は中国語・英語に加え、チベット文字・ベンガル文字を公式にサポートし、稀少文字や古文書の認識精度が92%以上に達しています。チェックボックスや下線、罫線の検出もポリゴン方式で高精度です。

ERNIE-5.0-0110は多言語コーパスで事前学習され、英語・中国語・日本語の生成品質は同等レベルです。ただし、文字種が画像情報に依存しないため、手書き文字や印刷体の特殊文字認識は対象外です。

この違いは、文書デジタル化（画像→テキスト）を必要とする業務ではPaddleOCR-VL-1.5が有利であり、純粋テキスト生成や対話型AIではERNIE-5.0シリーズが適しています。

5. エコシステム・導入ハードルと市場影響

両モデルはBaiduのクラウドAIサービスとしてAPIが提供され、DockerコンテナやvLLM推論サーバーでのデプロイが可能です。PaddleOCR-VL-1.5は0.9Bと比較的軽量で、GPU1枚でもリアルタイム推論が実現できます。

一方、ERNIE-5.0シリーズは数十億パラメータ規模のため、GPU複数枚が推奨されますが、ChatGPT互換の対話エンジンとしての汎用性が高く、SaaS型サービスへの組み込みが容易です。

以下の表は、主要プレイヤーへの直接的な影響をまとめたものです。

企業・サービス	影響
百度クラウド（AI Platform）	マルチモーダルOCRとLLMの同時提供で差別化
国内金融機関（書類自動化）	PaddleOCR-VL-1.5の高精度OCRが業務効率化を促進
教育テック企業	ERNIE-5.0の数式推論がオンライン教材の自動採点に活用可能
日本のシステムインテグレーター	両モデルのAPI連携で文書管理＋対話型検索のハイブリッドソリューションが構築可能

このように、技術的優位性は用途とインフラ要件に依存し、両者を組み合わせたハイブリッド戦略が日本市場でも注目されています。

まとめ：PaddleOCR-VL-1.5とERNIE-5.0シリーズは、文書OCRと大規模言語モデルの最新動向を表しています。両者の性能比較と違いを理解することで、ビジネスに最適な選択をし、文書デジタル化とAIによる文書処理の効率化を実現できます。

よくある質問

Q：PaddleOCR-VL-1.5とERNIE-5.0シリーズの違いは何ですか？

A：PaddleOCR-VL-1.5は文書OCRに特化したモデルで、ERNIE-5.0シリーズは大規模言語モデルです。

Q：どちらのモデルが文書デジタル化に適していますか？

A：PaddleOCR-VL-1.5が文書デジタル化に適しています。

Q：ERNIE-5.0シリーズは何に使えるのですか？

A：ERNIE-5.0シリーズはテキスト生成、推論、数学問題解決に使えます。