さくらインターネット、AIモデルを手軽に利用できるAPIサービス「さくらのAI Engine」の一般提供を開始

さくらインターネットは2025年9月24日、生成AI向け推論API基盤「さくらのAI Engine」の一般提供を開始した。

さくらインターネット、生成AI向け推論API基盤「さくらのAI Engine」を一般提供開始

【ニュースリリース】
さくらインターネットは、生成AI向け推論API基盤「さくらのAI Engine」を2025年9月24日（水）より一般提供を開始します。

詳細は以下をご覧ください。https://t.co/prbU8dfL3x
— 【公式】さくらインターネット (@sakura_pr) September 24, 2025

「さくらのAI Engine」は「さくらのクラウド」のコントロールパネルから利用でき、大規模言語モデル（LLM）をはじめとする基盤モデルを、API経由でアプリケーションへ組み込むことができるサービス。同社がクラウド上で提供しているNVIDIA GPUやネットワーク基盤をそのまま利用でき、各種AI機能はREST APIとして提供されるため、アプリケーションへの組み込みやプロトタイプ開発が容易。RAG（検索拡張生成）機能をAPI経由で簡単に利用でき、自社データを活用したチャットボットやFAQなどにも対応可能。

これらはすべて同社が運営する国内のデータセンターで構成されたインフラ上で利用可能なため、機密情報や個人情報を国内で取り扱うことができる。またこれにより、公共分野や高いセキュリティ要件が求められる業種でも安心して導入できるとのこと。

「さくらのAI Engine」はチャット（テキスト生成・分類⁠）⁠、埋め込み、音声認識（文字起こし）に対応しており、それぞれ以下のAIモデルが用意されている。

チャットモデル

Qwen3-Coder-30B-A3B-Instruct
Qwen3-Coder-480B-A35B-Instruct-FP8
gpt-oss-120b
llm-jp-3.1-8x13b-instruct4

ベクトル埋め込みモデル

multilingual-e5-large

音声の文字起こしモデル

whisper-large-v3-turbo

料金プランは「基盤モデル無償プラン」と「従量課金プラン」の2種類。両プランとも共通の無償利用枠があり、これを超過した場合「基盤モデル無償プラン」ではAPIリクエストに対してレート制御がかかり、「⁠従量課金プラン」では超過利用分への料金が発生する。このほか、ホスティングしているLLMモデル用APIとは別に、RAGのためのAPIとベクトルストアも提供されているが、こちらは「従量課金プラン」のみで利用可能。詳しい料金は、「さくらのAI Engine」のページを参照。

なお、「⁠基盤モデル無償プラン」には申し込み数に上限があり、上限に達した場合は新規の申し込み受付を停止するとのこと。