「最高でも回答精度9%程度だった「人類最後の試験」でOpenAIのDeep researchが26%以上を記録 」
AIの性能を定量化する評価試験のうち「これまでで最も難しい」とされる「人類最後の試験(Humanity's Last Exam)」について、OpenAIのAIエージェント「Deep research」が早くも26.6%という高いスコアを記録したことがわかりました。試験の公開から10日もたたずに最高スコアが183%増加したことになります。
コンテンツ文字数:0 文字
見出し数(H2/H3タグ):0 個
閲覧数:6 件
2025-02-05 20:03:32