Google⁠Gemini 2.0を発表 ―AIエージェントが複雑な操作をこなすネイティブマルチモーダルモデル

Googleは2024年12月11日、同社の生成AIモデルの最新バージョンGemini 2.0を発表、Gemini 2.0ファミリーの最初のモデルとなるGemini 2.0 Flashの実験版をリリースした。

Gemini 2.0はAIエージェントの機能を大きく発展させたモデル。AIエージェントは記憶したデータをもとに推論し、計画を立ててタスクを完了できるインテリジェントシステムで、込み入った指示にも対応しユーザを支援する。またネイティブマルチモーダル機能によって、画像や音声を含めたさまざまな入出力に対応する。

実験版としてリリースされたGemini 2.0 Flashは、低レイテンシとパフォーマンスを両立したモデル。前バージョンの1.5からパフォーマンスが向上しており、主要なベンチマークで1.5 Proの2倍の速度を記録しているという。また画像、動画、オーディオなどのマルチモーダル入力のサポートに加え、テキストと組み合わされたネイティブ画像生成や、柔軟性のあるな多言語音声合成などのマルチモーダル出力もサポートしている。加えてGoogle検索、コード実行、サードパーティのユーザー定義関数などのツールをネイティブに呼び出す機能も持つ。

Gemini 2.0 Flashは現在、開発者向けに実験モデルとしてGoogle AI StudioとVertex AIのGemini APIを介して提供されている。このうちマルチモーダル入力とテキスト出力はすべての開発者に提供され、アーリーアクセスパートナーはテキスト読み上げとネイティブ画像生成が利用できる。1月には一般提供が開始され、モデルサイズも拡大される予定。またリアルタイムのオーディオ・ビデオストリーミング入力と、複数のツールを組み合わせて使用できる機能を備えた新しいMultimodal Live APIもリリースされる。

また、12月11日からデスクトップとモバイルのWeb上からモデルのドロップダウン選択で、チャットに最適化されたGemini 2.0 Flash実験版にアクセスできるほか、モバイル版GeminiアプリでもGemini 2.0 Flashが間もなく利用可能となる。2025年初頭には、Gemini 2.0をさらに多くのGoogle製品に拡張する予定。

おすすめ記事

記事・ニュース一覧