「最高でも回答精度9％程度だった「人類最後の試験」でOpenAIのDeep researchが26％以上を記録」

AIの性能を定量化する評価試験のうち「これまでで最も難しい」とされる「人類最後の試験(Humanity's Last Exam)」について、OpenAIのAIエージェント「Deep research」が早くも26.6％という高いスコアを記録したことがわかりました。試験の公開から10日もたたずに最高スコアが183％増加したことになります。

AIの性能を定量化する評価試験のうち「これまでで最も難しい」とされる「人類最後の試験(Humanity's Last Exam)」について、OpenAIのAIエージェント「Deep research」が早くも26.6％という高いスコアを記録したことがわかりました。試験の公開から10日もたたずに最高スコアが183％増加したことになります。

Webページ

コンテンツ文字数：0 文字

見出し数（H2/H3タグ）：0 個

閲覧数：6 件

2025-02-05 20:03:32

オリジナルページを開く