UI操作に最適化されたモデルGemini 2.5 Computer Useが公開プレビューに

Googleは2025年10月7日、UI操作に最適化された新しいモデル「Gemini 2.5 Computer Use」を公開プレビューで提供開始した。

Introducing the Gemini 2.5 Computer Use model - Google Blog

これまでのAIモデルはソフトウェアと構造化APIを介して連携してソフトウェアを操作できるが、多くのデジタルタスクではフォームへの入力や送信など、グラフィカルユーザーインターフェース（GUI）との直接的なやり取りが求められる。

Gemini 2.5 Computer Useは、Gemini 2.5 Proの視覚理解および推論機能を基盤として構築され、UIと対話するエージェントを強化できる専用モデル。WebおよびモバイルのUI操作に関する複数のベンチマークにおいて、先行モデルよりも高い性能をもち、レイテンシも低く抑えられているという。

Our new Gemini 2.5 Computer Use model can navigate browsers just like you do. 🌐

It builds on Gemini’s visual understanding and reasoning capabilities to power agents that can click, scroll and type for you online - setting a new standard on multiple benchmarks, with faster… pic.twitter.com/Fqmov9Kkhb
— Google DeepMind (@GoogleDeepMind) October 7, 2025

このモデルはブラウザの自動操作に最適化されており、ユーザー要求・ブラウザのスクリーンショット・アクション履歴を基本入力として、次に実行すべきUIアクション（クリック／入力／スクロールなど）を生成する。なお、OSレベルの操作は最適化されておらずまだサポートされていないが、モバイルUIに関する操作のいくつかは有望であることを示しているという。

たとえば、Gemini 2.5 Computer Useを使うことで、次の操作をおこなえる。

フォーム記入・送信：入力欄を埋め、選択肢を操作してログインなどの手続きを自動化。
UIテスト自動化：リグレッションテストの高速化やテスト失敗時の復旧。
多段ステップの業務フロー: データ取得→別Webアプリ登録→予約設定といった連続操作。
要素整理・ドラッグ操作: 付箋ボード上のメモを分類・再配置。

安全面では、ユーザーの意図的悪用・予期しないモデル挙動・Web環境上のインジェクションや詐欺コンテンツという3種類のリスクを想定して、モデルに安全機構が組み込まれている。また開発者には、アクション実行前ごとにモデルが提示する操作の安全性の確認サービス（per-step safety service）や、高リスク操作に対しての拒否またはユーザー確認を指示する機能（system instructions）が提供される。高リスク操作の例として、システムの整合性を損なう操作、セキュリティ侵害、CAPTCHA回避、医療関係の制御などが挙げられている。

このモデルの詳細はモデルカードを参照のこと。

実際の動作では、Gemini 2.5 Computer UseがGemini APIにあるUI操作用のcomputer_useツールを次のように反復して使うことでUI操作をおこなう（ポップアップやレイアウト変化は動作混乱の要因になるという⁠）⁠。

入力: ユーザーの要求・画面スクリーンショット・直近操作履歴などを送る。
提示: モデルが次の操作（クリック／入力／スクロールなど）を示す。必要ならユーザーへの確認メッセージが含まれる（例：購入処理など⁠）⁠。
実行: ブラウザがその操作を実行する。
出力: 新しいスクリーンショットと現在のURLを返し、次の周回へ進む。

そして、タスク完了／エラー発生／安全上の停止応答／ユーザによる停止指示のいずれかで反復作業を終えるかたちになる。

なおcomputer_useツールは、UI操作を表す関数呼び出しツール群（クリック／入力／スクロール／ナビゲート／待機など）を提供する。さらに高リスク操作で人の確認を求める安全機構を備え、標準アクションの除外指定やカスタム関数追加による拡張が可能になっている。

またモデルはスクリーンショット上の座標（幅・高さ）を0から999に正規化して返すため、エージェント側で実ピクセルに変換して使うことになる。さらに推奨画面サイズは1440×900ということがドキュメントに記載されている（他解像度でも動作するが結果の品質に影響しうる⁠）⁠。

使い方の詳細はドキュメントや、GitHubのリファレンス実装を参照のこと。

Gemini 2.5 Computer Useは、Google AI StudioおよびVertex AIのGemini APIで現在利用可能になっている。ただしプレビュー段階であることもあり、エラーやセキュリティのリスク（詐欺コンテンツなど）についての注意が必要なことが記されており、重要タスク・センシティブデータ・取り返しのつかない操作にはユーザーの監督が推奨されている。

また、ヘッドレスブラウザを実行できるプラットフォームBrowserbaseを利用して、モデルの動作を確認できる「Gemini Browser」のデモが公開されている。ブラウザ状態を逐次読み取り、次の操作を提案し反復作業が見て取れる。

Excited to finally announce our partnership with @GoogleDeepMind.

We've been working hard to help train and evaluate/benchmark models to produce a new SOTA Computer Use model.

The best part? You can try it now using the link below. https://t.co/tchEcJpsys pic.twitter.com/JGKuZ6tnSa
— Kyle Jeong (@kylejeong21) October 7, 2025