AI活用支援セミナー AI活用支援セミナー

DXの視点『AIは「人類最後の試験」を解けるのか?』

柏村 祐

目次

1.人工知能(AI)と知性のフロンティア

情報技術の目覚ましい進展により、人工知能(AI)は人間の知的能力に迫る、あるいは一部で凌駕する能力を示し始めている。この潮流の中、AIは人類が長年探求してきた「知性の限界」そのものに挑戦する存在となりつつある。

本稿で注目するのは、「人類最後の試験」(Humanity's Last Exam, 以下HLE)である。これは、物理学、数学、古代文字解読など、専門家ですら解答に窮する超難問を集積したプラットフォームであり、AIの真の知的潜在能力を測ることを目的としている。AIの安全性研究を推進する非営利団体であるCenter for AI Safetyと、AI開発企業であるScale AIが主導し、世界中のトップ研究者の協力で作成されたこれらの問題群は、現代における「知のフロンティア」を示す試金石といえる。

最先端AIがこれらの難問に挑む事実は、AIが人類未解決の問題を解き明かす可能性を示唆し、知的な大変革の予兆とも捉えられる。しかし、AIの能力向上は、人間の知的能力の陳腐化を意味するのだろうか。本レポートでは、HLEの情報を基にAIの現状を概説し、AI時代における人間の役割と共生の道を探る。

2.人類最後の試験(HLE)の概要とAIの挑戦

HLEは、特に大規模言語モデル(LLM)の急速な進化に対応するために設計された、前例のない難易度を持つベンチマークである。従来のAI評価指標では最新モデルが高スコアを容易に達成し、真の能力限界を測ることが困難になっていた。HLEは、この「ベンチマークの陳腐化」の課題に応え、極めて難解な問題を提供することで、AI能力の限界点を押し上げ、さらなる技術開発を促進することを目指している。

データセットは100を超える専門分野、2,700問以上の超難問で構成され、世界50か国、500以上の研究機関に所属する約1,000名の専門家の知見を結集して作成された。その難易度の高さは、ウェブサイトで公開されているサンプル問題からも明らかである。例えば、古典分野では未解読の古代文字の解読が求められ、歴史学や言語学の深い知識が不可欠となる。生態学分野では、ハチドリの特定の骨構造に関する極めて専門的な問いが出され、鳥類学を含む生物学の高度な理解が必要とされる。数学分野においては、抽象数学の最先端である圏論からの出題があり、数理科学の博士レベルの研究者でも容易には太刀打ちできない難易度である。さらに、計算機科学分野でも、グラフ理論やマルコフ連鎖といった専門知識を駆使した高度な論理的思考力が試される問題が提示されている。これらの例からも明らかなように、HLEは各分野の最先端に位置する、まさに人類が到達しうる最高レベルの難問を集めた、究極のベンチマークといえる。

資料1に示すように、2025年5月時点で公開されている主要なAIモデル(o3、Gemini 2.5 Pro、o4-mini)がHLEに挑戦しているが、その精度は依然として限定的である。最高精度を示したo3でも正答率は20.3%であり、Gemini 2.5 Pro(18.4%)、o4-mini(18.1%)が続く。多くのモデルは1桁台から10%台前半の精度にとどまり、人類の高度な知識体系や複雑な思考力にはまだ大きな隔たりがあることを示している。

資料1
資料1

さらに、較正誤差(Calibration Error)の高さも課題である。この値が高いほど、モデルの「自信度」と実際の正答率が乖離していることを意味し、AIが誤答を過剰な自信をもって出力する傾向(キャリブレーションの問題)を示唆している(例:Gemini 2.5 Proで71.0%、GPT-4.1やGPT-4oで89.0%)。

開発チームは、AI技術の進歩速度を踏まえ、2025年末までにAIがHLEで50%超の正答率を達成する可能性を指摘している。これが実現すれば、AIが特定領域で専門家レベルの知識応用能力を獲得し始めることを意味する。ただし、HLEは既存知識に基づく問題解決能力を測るものであり、未知を開拓する創造性や、文脈に応じた総合的な判断力といった人間固有の能力までは評価していない点に留意が必要である。

3.AI時代における人間の役割と未来への共創

AIがHLEのような難問を解く能力を高めたとしても、それは「人間の価値の終焉」を意味しない。人間の知性の本質は、問題を解くだけでなく、新たな問いを生み出し、未知の可能性を探求し、価値を創造することにあるからだ。

AI時代において人間が磨くべき能力は、第一に既存の枠を超えた「創造性と発想力」、第二に善悪や優先順位を判断する「倫理観と価値判断」、第三に他者に寄り添い関係性を築く「共感性とコミュニケーション能力」、そして第四に本質を見抜きAIの能力を引き出す「問いを立てる力」であると筆者は提言したい。

AIは人間の能力を代替するものではなく、むしろ拡張するパートナーと捉えるべきである。互いの強みを活かす「知的分業」を進め、共に進化する「知的共進化」を目指すことが重要となる。人間が設定した目標や倫理的枠組みの中で、AIが膨大なデータ処理やパターン認識能力を発揮することで、かつてない発見やイノベーションが期待される。今後の社会課題は「AI失業」よりも、AIと創造的に協働できない人が取り残される「創造性格差」であろう。

これに対応するには、教育・人材育成を「AIにできないこと」に重点を置く形へ転換する必要がある。教育現場では、知識伝達型から探求・創造型へと移行し、AIを使いこなすリテラシーと共に、人間ならではの感性や協調性を育むことが急務となる。それに向け、知識偏重から脱却し、身体性や対面コミュニケーション、実践を通じた問題解決能力などを重視すべきである。

「人類最後の試験」は、AIの能力測定のみならず、私たち人間に学び続けることの重要性と、人間ならではの知性のあり方を問いかける。AIの進化を理解・活用し、共に成長する姿勢を持ち、人間固有の能力を磨き続けることこそが、AIと共生する未来を拓く鍵となるだろう。

柏村 祐


本資料は情報提供を目的として作成されたものであり、投資勧誘を目的としたものではありません。作成時点で、第一生命経済研究所が信ずるに足ると判断した情報に基づき作成していますが、その正確性、完全性に対する責任は負いません。見通しは予告なく変更されることがあります。また、記載された内容は、第一生命保険ないしはその関連会社の投資方針と常に整合的であるとは限りません。

柏村 祐

かしわむら たすく

ライフデザイン研究部 主席研究員 テクノロジーリサーチャー
専⾨分野: AI、テクノロジー、DX、イノベーション

執筆者の最近のレポート

関連テーマのレポート

関連テーマ