【最新AIニュース】OpenAIが新たなAI推論モデル「o3」「o3-mini」を発表!

AI
この記事は約5分で読めます。

革新と安全のバランス:OpenAI、『O3』と『O3-mini』でAIの未来を安全に推進

 

スポンサーリンク

1. 新モデル「O3」「O3-mini」の発表

  • 何をしたか: 前モデル「O1」に続く新たな推論モデル「O3」および、そのコスト効率版「O3-mini」を開発・発表。ただし、本発表時点では一般公開せず、安全性テスト用に研究者向けアクセスを開始。
  • 結果はどうだったか: 「O3」は従来よりはるかに高度な推論力を持ち、「O3-mini」はその優れた性能を低コストで実現可能。
  • すごさ: 「O3」は数学、プログラミング、PhDレベルの科学問題などで既存モデルを圧倒的に上回り、「O3-mini」は「O1」並、あるいはそれ以上の性能を大幅なコスト削減と高速化で達成。
  • 今後の流れ: 「O3-mini」は2024年1月末頃、続いて「O3」もまもなく一般提供予定。安全性テスト参加者募集を通じてモデルの信頼性確保を図る。

2. 「O3」の性能評価(コーディング・数学・科学分野)

  • 何をしたか: 競技プログラミング(Codeforces)や数学コンテスト(AIME)、PhDレベル科学問題(GPQA Diamond)などの厳しいベンチマークでモデルをテスト。
  • 結果はどうだったか:
    • コーディング(Eloスコア): O1から大幅向上(例: Codeforces ELOが2727に到達可能)。
    • 数学(AIME): 96.7%正解率(O1は83.3%)。
    • GPQA Diamond(博士課程レベル科学問題): 87.7%正解率(O1は78%)。
  • すごさ: 人間の専門家水準に迫り、既存モデルがほぼ飽和していたベンチマークを大幅に突破。
  • 今後の流れ: 難易度の高い新ベンチマーク(Epic AI’s Frontier Math Benchmarkなど)を用いてさらなる限界性能に挑戦。

3. ARC AGIベンチマークへの挑戦

  • 何をしたか: 5年間誰もまともに突破できなかった難関ベンチマーク「ARC AGI」(フランソワ・ショレ考案)でO3をテスト。
  • 結果はどうだったか: O3は低コスト条件で75.7%という新記録を樹立し、人間並みの計算条件では87.5%を達成。人間の平均(約85%)を上回り、初の人間超えモデルに。
  • すごさ: 「ARC AGI」は未知のタスクで発想力・抽象力を試す「汎用知能」指標。O3が達成したスコアは未踏領域で、この分野での大きなマイルストーン。
  • 今後の流れ: ARC Prize FoundationとOpenAIが協力し、2025年以降も新たなフロンティア・ベンチマークを策定し、AGI到達への指標作りを継続。

4. 「O3-mini」の特長・実証

  • 何をしたか: 「O3」と同等あるいはそれ以上の推論性能を、より低コスト・高速で実現する「O3-mini」を開発。思考時間を低・中・高から選べ、タスク難易度に応じて性能と応答速度を調整可能。
  • 結果はどうだったか:
    • コーディング性能で「O1」並または上回る性能を、遥かに低コスト・低遅延で達成。
    • 数学テスト(AIME)でも思考時間調整で「O1-mini」を凌駕。
    • レイテンシが大幅改善し、ほぼ1秒未満の応答を実現可能。
  • すごさ: 「O1」のコスト・速度上の制約を大きく打ち破り、汎用性と柔軟性を同時に実現。「O3」ほどの性能を必要としないが、高品質な推論が必要な場面での有力な選択肢となる。
  • 今後の流れ: 「O3-mini」も安全テスト後に一般利用開始予定。より多くのAPI機能(関数コール、構造化出力など)をサポートし、開発者が使いやすい形で提供。

5. 安全性テスト・外部研究者参加

  • 何をしたか: モデル性能向上に伴い、安全性確認を強化。今回は一般公開前に、外部の安全・セキュリティ研究者がモデルをテストできるプログラムを開始。
  • 結果はどうだったか: 公募により、1月10日まで申請を受け付け。選ばれた研究者は新モデルへのアクセス権を得て、安全性・ハラスメント・情報漏洩などの脆弱点を発見・報告可能。
  • すごさ: 外部テスターによる包括的な検証で、安全性・信頼性を高水準に担保。
  • 今後の流れ: テスト結果を反映し、より安全で信頼可能なモデルとして「O3」「O3-mini」を一般公開。

6. 「Deliberative Alignment」(審議的アライメント)手法

  • 何をしたか: 従来の安全性学習は例示的手法が主流だったが、モデルの推論力を活用してプロンプトの安全境界をより正確に判断する新手法「Deliberative Alignment」を開発・適用。
  • 結果はどうだったか: 安全拒否精度と過剰拒否のバランスが改善され、より適切な応答が可能に。
  • すごさ: モデル自身の推論能力を安全性判定に活用することで、性能と安全性のトレードオフを改善。
  • 今後の流れ: この手法を活用して、より洗練された安全方針を整備し、モデルが複雑な要求にも安全に応答できるようにする。

【今後の展望】

  • 「O3-mini」は2024年1月末頃、「O3」はその直後に一般利用開始を予定。
  • 安全性テストや外部研究者の参加で、モデルの信頼性を高めてから正式リリース。
  • ARC Prize Foundationとの協力で、さらなる困難なベンチマーク開発を行い、AGIへの道標を確立。
  • 「Deliberative Alignment」など新手法で、安全性と性能を両立させるモデルを目指す。

これらを総合すると、OpenAIは「O3」「O3-mini」という新フロンティアモデルを通じて、性能・コスト効率・安全性の向上を同時に達成し、AGIに向けた一歩をさらに進めたことがわかります。また、外部検証・新たな安全性手法・次世代ベンチマークの策定など、持続的な進化のための基盤づくりにも注力している点が特徴的です。

タイトルとURLをコピーしました