OpenAIは最近、GPTモデルの動作に関するルールと目的を記述した文書、Model Specを公開した。この仕様書は、データ・ラベラーやAI研究者がモデルをファインチューニングするためのデータを作成する際に使用することを目的としている。
Model Specは、OpenAIがGPTモデルの最近の世代をファインチューニングするために使用した、人間のフィードバックからの強化学習(RLHF)トレーニングで使用した既存の内部文書に基づいている。この仕様書には、目的、ルール、デフォルトという3種類の原則が含まれている。目的には、モデルの望ましい動作の大まかな説明が「人類に利益をもたらす」と定義されている。ルールはより具体的で、ユーザーによって決して上書きされてはならない「決してXをしてはならない」などの「いちかばちか」の状況に対応している。最後に、Specにはデフォルトの動作が含まれており、上書きも可能だが、応答の基本的なスタイルガイダンスやコンフリクトを処理するためのテンプレートが提供される。OpenAIによれば次のように述べている。
集合的アライメントとモデルの安全性に関する我々の研究の継続として、我々は、人間のフィードバックからの強化学習に取り組む研究者やAIトレーナーのためのガイドラインとして、Model Specを使用するつもりです。また、我々のモデルがどの程度までModel Specから直接学習できるかを探求します。私たちはこの作業を、モデルがどのように振る舞うべきか、望ましいモデルの振る舞いはどのように決定されるのか、そしてこれらの議論に一般の人々をどのように参加させるのが最善なのかについて、現在進行中の一般的な会話の一部であると考えています。
2022年、OpenAIはInstructGPTと呼ばれるGPT-3のファインチューニング・バージョンを導入した。このモデルは、ランク付けされたモデル出力のデータセットに対してRLHFを用いてファインチューニングされた。このアイデアは、モデルをよりユーザーの意図に「沿った」ものにし、誤った出力や有害な出力を減らすことだった。それ以来、多くの研究チームがLLMで同様のインストラクションチューニングをしている。例えば、GoogleのGeminiモデルもRLHFでファインチューニングされている。Meta社のLlama 3もインストラクションチューニングをしているが、直接プリファレンス最適化(DPO)という異なるファインチューニング手法を用いている。
しかし、インストラクションチューニングの鍵は、人間のラベラーによってランク付けされた複数の出力を持つプロンプト入力のデータセットである。Model Specの目的の一つは、ラベラーが出力をランク付けする際の指針となることだ。OpenAIはまた、Model Specから直接、インストラクションチューニングプロセスを自動化する方法にも取り組んでいると主張している。このため、Model Specの内容の多くは、ユーザーのプロンプトの例と「良い」回答と「悪い」回答である。
Spec のルールやデフォルトの多くは、LLM のよくある悪用に対処するためのものである。例えば、命令系統に従うというルールは、モデルに以前の指示を無視するように促すという単純な「脱獄」を防ぐために設計されている。その他の仕様は、特にタスクの実行を拒否する際のモデルの反応を形成することを意図している。Specによれば、「拒否は一文にとどめ、決して説教臭くならないこと」である。
ウォートン大学教授でAI研究者のEthan Mollick氏は、XにModel Specについて投稿した。
コメントで指摘されているように、Anthropicには憲法がある。一般的に良いことを概説し、AIに良いことを指示しているため、声明としてはあまり重みがなく、明確さも足りないと感じる。そのため、原則の間の難しい選択を理解するのが難しくなっている。
Anthropicは、2022年にConstitutional AIという考え方を導入した。このプロセスは、インストラクションチューニングのための出力をランク付けするためにAIモデルを使用する。Anthropicのコードはオープンソースではないが、AIコミュニティHuggingFaceはAnthropicの研究に基づくConstitutional AIのリファレンス実装を公開している。