Googleは2025年10月7日、UI操作に最適化された新しいモデル
これまでのAIモデルはソフトウェアと構造化APIを介して連携してソフトウェアを操作できるが、多くのデジタルタスクではフォームへの入力や送信など、グラフィカルユーザーインターフェース
Gemini 2.
Our new Gemini 2.
— Google DeepMind (@GoogleDeepMind) October 7, 20255 Computer Use model can navigate browsers just like you do. 🌐
It builds on Gemini’s visual understanding and reasoning capabilities to power agents that can click, scroll and type for you online - setting a new standard on multiple benchmarks, with faster… pic.twitter. com/ Fqmov9Kkhb
このモデルはブラウザの自動操作に最適化されており、ユーザー要求・
たとえば、Gemini 2.
- フォーム記入・
送信:入力欄を埋め、選択肢を操作してログインなどの手続きを自動化。 - UIテスト自動化:リグレッションテストの高速化やテスト失敗時の復旧。
- 多段ステップの業務フロー: データ取得→別Webアプリ登録→予約設定といった連続操作。
- 要素整理・
ドラッグ操作: 付箋ボード上のメモを分類・ 再配置。
安全面では、ユーザーの意図的悪用・
このモデルの詳細はモデルカードを参照のこと。
実際の動作では、Gemini 2.computer_
ツールを次のように反復して使うことでUI操作をおこなう
- 入力: ユーザーの要求・
画面スクリーンショット・ 直近操作履歴などを送る。 - 提示: モデルが次の操作
(クリック/ 入力/ スクロールなど) を示す。必要ならユーザーへの確認メッセージが含まれる (例:購入処理など)。 - 実行: ブラウザがその操作を実行する。
- 出力: 新しいスクリーンショットと現在のURLを返し、次の周回へ進む。
そして、タスク完了/
なおcomputer_
ツールは、UI操作を表す関数呼び出しツール群
またモデルはスクリーンショット上の座標
使い方の詳細はドキュメントや、GitHubのリファレンス実装を参照のこと。
Gemini 2.
また、ヘッドレスブラウザを実行できるプラットフォームBrowserbaseを利用して、モデルの動作を確認できる
Excited to finally announce our partnership with @GoogleDeepMind.
— Kyle Jeong (@kylejeong21) October 7, 2025
We've been working hard to help train and evaluate/benchmark models to produce a new SOTA Computer Use model.
The best part? You can try it now using the link below. https://t. pic.co/ tchEcJpsys twitter. com/ JGKuZ6tnSa