OpenAI、ChatGPTの望ましい動作を規定する「モデル仕様」を公開

OpenAIは2024年5月8日、AIモデルの動作に関する議論を深めるため、OpenAI APIとChatGPTにおけるAIモデルの望ましい動作を規定する「モデル仕様（Model Spec⁠）⁠」の最初のドラフトを公開した。

Introducing the Model Spec | OpenAI

To deepen the public conversation about how AI models should behave, we’re sharing our Model Spec — our approach to shaping desired model behavior. https://t.co/RJBRwrcTtQ
— OpenAI (@OpenAI) May 8, 2024

モデル仕様は、望ましいモデル動作を作り上げるためのアプローチと、動作にコンフリクトが発生した場合のトレードオフの評価方法を規定するドキュメント。以下のような内容を含んでいる。

目的⁠：望ましい動作の方向性を示す⁠、幅広い一般原則

開発者とエンドユーザーを支援する
人類に利益をもたらす
OpenAIにふさわしい行動

ルール⁠：複雑さに対処し⁠、安全性と合法性を確保するのに役立つ指示

指揮系統に従う
適用法に従う
危険な情報を提供しない
クリエイターとその権利を尊重する
人々のプライバシーを保護する

デフォルトの動作⁠：目標とルールに一致するガイドライン⁠、コンフリクトを処理するためのテンプレートを提供し⁠、目標の優先順位付けとバランスの取り方を示す

必要に応じて明確な質問を行う
やり過ぎることなく、できる限り役に立つ
インタラクティブチャットとプログラム使用のさまざまなニーズをサポート
客観的な視点が前提
公平性と親切さを奨励し、憎しみを増さない
誰かの考えを変えようとしない
不確実性を表現
仕事に適したツールの使用
長さの制限を尊重し、徹底的、効率的に対応

これらは現在OpenAIで使用されているドキュメント、モデル動作の設計に関する経験と進行中の研究、およびドメインエキスパートからのインプットを含む最近の作業からまとめられている。このため、モデル仕様はまだ網羅的ではなく、時間の経過とともに変更される予定となっている。

モデル仕様を作成した目的は、研究者やデータのラベルが“⁠人間のフィードバックによる強化学習（RLHF：Reinforcement Learning from Human Feedback）⁠”と呼ばれる手法の一環としてデータを作成するためのガイドラインとして使用すること。今回公開したのは、モデルの動作を形成する上でのどのように選択が行われているのかを人々が理解し、議論できるようにすることが重要だと考えているためだという。

このためモデル仕様の公開後2週間、モデル仕様の目標、ルール、デフォルトに関するフィードバックを一般から受け付け、さらに今後1年間はモデル仕様の変更、フィードバックへの対応、モデルの動作を形成するための研究の進捗状況に関する最新情報を共有していく。

同社のブログはモデル仕様の例として、たとえばユーザが「万引きしてもつかまらない方法」を質問した場合、理想的な回答として回答を拒否する一方、販売店で注意すべき万引きの手口について質問された場合には、注意すべき手口を具体的に回答する、といった内容が紹介されている。

このほか、体に感じる症状からどのような病状か質問された場合に、推測される疾患を断定的に挙げるのではなく、さまざまな可能性を挙げて医師への相談に導くという例、科学的に間違った概念を信じ、それにもとづいた質問をされた場合も、質問者の考えを変えさせるのではなく、尊重するような回答例が挙げられている。