
TL;DR
JetBrainsは、 Mixture-of-Experts (MoE) アーキテクチャを採用した最新のコーディング推論モデル「Mellum2-12B-A2.5B-Thinking」を公開した。131,072トークンの長文コンテキストに対応し、強化学習によって思考プロセスを内省する<think>ブロック出力機能を備え、セキュアなローカル環境での高度なデバッグと設計を可能にする。
Quick Facts
- モデル構成: 総パラメータ数約12B、トークンあたり2.5BアクティブのMixture-of-Experts(64エキスパート、8アクティブ)
- コンテキスト長: 最大131,072トークン(スライディングウィンドウ&フルアテンションの統合)
- 学習手法: SFT(教師あり微調整)に加えて、検証可能な報酬(RLVR: Reinforcement Learning with Verifiable Rewards)を用いた強化学習
- 主要用途: 複雑なデバッグ、複数ステップにわたるコード設計、論理推論タスク
開発者向けツール大手のJetBrainsが、自社AIサービスの基盤を担う新たな推論拡張モデル「Mellum2 Thinking」をオープンソースコミュニティに向けて発表した。本モデルは、従来の単純なコード生成とは一線を画し、思考プロセスを明示的に挟み込んで推論精度を高める「思考型(Thinking)」モデルに仕上がっている。
Mellum2 Thinkingのアーキテクチャ特徴
Mellum2 Thinkingは、28レイヤー、隠れ層サイズ230からなるMixture-of-Experts(MoE)アーキテクチャをベースにしている。合計パラメータ数は12B(121億)だが、各トークンの処理においては64個のエキスパートから上位8個のみを動的に選択・実行するため、実質的な計算負荷は2.5B(25億)パラメータ相当に抑えられる。これにより、エッジ環境や開発者のローカルPCでの実行現実性を確保している。
また、コンテキストサイズは131,072トークンと極めて広く、大規模なコードベースや長いデバッグログを丸ごと読み込ませることが可能である。スライディングウィンドウ・アテンションとフル・アテンションのレイヤーを精緻に組み合わせることで、メモリ効率と大域的な依存関係の維持を両立させた。
[ユーザーのプロンプト入力]
↓ (128K 長文コンテキスト処理)
[Mellum2 MoE ゲートウェイ]
↓ (64のエキスパートから8個を動的に選択)
[<think> 内省・推論思考プロセスの生成]
↓ (エラー原因の分析・コード設計の検証)
[最終解答・修正コードの出力]
学習プロセスとRLVR(検証可能な報酬による強化学習)
Mellum2 Thinkingは、単なるテキスト予測モデルではない。`Mellum2-12B-A2.5B-Base`モデルから出発し、まずは最終アシスタントターンのみに損失を適用するSFT(教師あり微調整)が行われた。その後、難易度の高い数学問題や論理設計データを含むデータセットを用いて、RLVR (Reinforcement Learning with Verifiable Rewards) が施された。
このプロセスを通じて、モデルは出力の前に自己検証を行うようになり、回答の前に生成される `<think>...</think>` ブロック内にエラーの仮説検証プロセスを記述する。その結果、複雑なコードの整合性チェックやバグの特定率が飛躍的に向上した。
Mellum 2 開発ファミリーのポジショニング
JetBrainsは開発フェーズやユースケースに応じてモデルを切り替えられるよう、以下のラインナップを提供している。
| チェックポイント名 | 説明・役割 |
|---|---|
| Base Pretrain | 長文コンテキスト拡張前の初期ベースモデル |
| Base | 長文コンテキスト対応を完了した最終ベースモデル |
| Instruct SFT | 指示追従用の微調整を施した中間チェックポイント |
| Thinking SFT | 思考プロセスを出すための教師あり微調整モデル |
| Instruct | 強化学習で調整された、低遅延でダイレクトに応答するモデル |
| Thinking(本モデル) | RLVRを統合した、<think>ブロックを出力する思考特化型モデル |
日本企業への影響と日本から見た意味
日本の開発現場では、ソースコードや顧客データが社外ネットワークに送信されることに対するセキュリティ基準が極めて厳しい。JetBrainsが軽量ながらも高度な推論力を持つ2.5Bアクティブパラメータのオープンモデルを提供したことは、セキュアなオンプレミス(またはローカルPC)開発環境への移行を強烈に後押しする。
特にJetBrainsのIDE(IntelliJ IDEA, WebStorm, PyCharm等)を愛用する日本のエンジニアコミュニティにおいて、プラグイン経由でローカルで軽量・高性能な推論を実行できる未来は、生産性向上に直接寄与するだろう。
次に見る指標
- IDE統合の深度: JetBrains製品の「AI Assistant」ローカル版やオフライン版プラグインとしての組み込み時期
- モデルの日本語対応能力: 思考プロセスが日本語の入力に対してどの程度一貫して動作するか
- 同等サイズ(10B前後)の他社ローカル推論モデル(DeepSeek-R1-Distillなど)とのコード品質・消費メモリ比較
よくある質問 (FAQ)
- Q: 低遅延でサクッとコードを書いてほしい場合もThinkingモデルが良いですか?
- A: いいえ。短いコード補完やチャット等で思考プロセスを待つのが不要な場合は、直接答えを返す「Mellum2-12B-A2.5B-Instruct」の使用が推奨されます。
- Q: ライセンスはどうなっていますか?
- A: Apache 2.0 ライセンスで公開されており、商用利用や改変、再配布が可能です。
- Q: 動作要件はどのようになりますか? A: アクティブパラメータが2.5Bに抑えられているため、中スペック以上のローカルGPU(RTX 4060等)やApple Silicon(Mac)搭載の環境でもBF16/FP16精度で軽快に動作します。