概要
Google は 2025 年 6 月 5 日、生成 AI モデルの最上位ラインである 「Gemini 2.5 Pro Preview 06-05 ビルド」 を公開しました。3 月に出た 03-25 Experimental → 5 月 I/O Edition(05-06)に続く 3 回目の改良版で、数週間以内に GA(安定版)として正式提供される予定です。開発者は Gemini API(Google AI Studio/Vertex AI)と Gemini アプリで今日から利用できます。9to5google.com
技術的アップグレードのポイント
項目 | 改善内容 | インパクト |
---|---|---|
思考品質 | LMArena Elo +24 → 1470、WebDevArena +35 → 1443 で依然 1 位を維持 | 一般言語応答・Web アプリ設計双方でトップ性能を更新 9to5google.com |
コーディング能力 | Aider Polyglot など難関ベンチマーク首位を継続 | エージェント型コード変換・リファクタに強み 9to5google.com |
応答スタイル | 前版で指摘された「ドライな出力」を修正し、構成・創造性を向上 | ユーザー向け文書生成やクリエイティブ用途が改善 techcrunch.com |
思考バジェット | 2.5 Flash で導入した thinking budget を Pro にも拡張 | コストとレイテンシの両立が API レベルで可能に blog.googleventurebeat.com |
マルチモーダル | 1 M 入力 / 65 k 出力トークン、画像・音声・動画も入出力可 | 長大文書・会議議事録・データセット全体を 1 プロンプトで処理 cloud.google.com |
ネイティブ音声 | Flash/Pro 両方でリアルタイム対話 & 高制御 TTS をプレビュー | NotebookLM Audio、Project Astra など製品連携が拡大 blog.google |
ベンチマーク詳細
- LMArena: 1470 Elo(+24)で GPT-4o を再逆転し 1 位を復帰。
- WebDevArena: 1443 Elo(+35)で Claude 3.5 Sonnet/GPT-4o を上回る Web アプリ生成性能。
- SWE-Bench Verified: 63.8 %(カスタムエージェント)で GPT-4o を数ポイント上回り、OSS バグ修正能力でも先行。9to5google.com
考察: 近年のトップモデルは「推論性能」と「生成多様性」を同時に伸ばすと出力品質が崩れがちですが、06-05 ではスタイル調整でその副作用を抑えた点が特徴です。
料金・レート制限(プレビュー時点)
入力 ($/M tok) | 出力 ($/M tok) | 最大 RPM/TPM | |
---|---|---|---|
Gemini 2.5 Pro Preview 06-05(200k トークン帯) | $2.50 | $n15.0 | 同上 |
Context Caching /M tok まで抑えられるケースも試算済み。venturebeat.com
開発者が今すぐ試す方法
- Google AI Studio →
gemini-2.5-pro-preview-06-05
モデルを選択。 - Vertex AI → 同モデル ID でデプロイ。サーバーレスでスケール。
- Gemini アプリ(Web/Android/iOS)→ 06-05 ビルドに順次置換。無料ユーザも利用可能(リクエスト上限は要注意)。9to5google.comcloud.google.com 参考設定
json5
{ "model": "gemini-2.5-pro-preview-06-05", "temperature": 0.7, "top_p": 0.8, "thinking_budget_tokens": 4096, // 複雑タスク時のみ増やす "grounding": "search" }
競合比較
モデル | リリース | 主要強み | 弱み / 未対応 |
---|---|---|---|
Gemini 2.5 Pro 06-05 | 2025-06-05 | 1 M コンテキスト、思考バジェット、ネイティブ音声 | 超長推論時コスト高 |
OpenAI GPT-4o | 2025-05-13 | 高速マルチモーダル、音声・視覚を統合 | API は最大 128k ctx、思考制御なし |
Anthropic Claude 3.5 Sonnet | 2025-06-01 | 合成データ少量学習で堅牢、200k ctx | ライブコード実行不可 |
DeepSeek-V3 | 2025-05 | 128k ctx、研究領域で高スコア | コード安定性に課題 |
総評: 06-05 ビルドは「長コンテキスト+思考バジェット」という Google 独自ギミックが強み。Pure 推論性能も GPT-4o と伯仲し、エンタープライズの TCO(総所有コスト)最適化 の観点で差別化しています。
ビジネス・政策・リスク視点
- 企業導入: マルチモーダル・長文脈が求められる RAG + エージェント の本番投入が現実的に。
- コスト最適化: バジェット制御はサーバー費負担を平準化し、ピーク時のみ深い推論を許容する運用を実現。
- 安全性: Flash/Pro で生成する音声には SynthID ウォーターマークが自動挿入。レッドチーム+外部評価でリスク検証を継続。blog.google
- 規制: EU AI Act の自動生成物開示義務に対応しやすい設計。