「これまでで最も難しいAIテスト「人類最後の試験」リリース、3000の多肢選択問題と短答式の質問で構成 」

AI企業のScale AIおよびAI研究組織のCenter for AI Safety(CAIS)が共同で、AIの知識の限界をテストするために設計したベンチマーク「人類最後の試験(Humanity's Last Exam)」を公開しました。既存の主要モデルのうち、正解率10%を超えるモデルは存在しなかったとのことです。

AI企業のScale AIおよびAI研究組織のCenter for AI Safety(CAIS)が共同で、AIの知識の限界をテストするために設計したベンチマーク「人類最後の試験(Humanity's Last Exam)」を公開しました。既存の主要モデルのうち、正解率10%を超えるモデルは存在しなかったとのことです。

gigazine.net

Webページ

コンテンツ文字数:0 文字

見出し数(H2/H3タグ):0 個

閲覧数:9 件

2025-01-24 20:04:02

オリジナルページを開く