人工智慧AI示意圖。路透社
日本共同社報導,日本一家AI新創公司把日本名門大學東京大學與京都大學的入學考試題目,交給人工智慧(AI)作答。其中,ChatGPT在2024年「考東大」還落得每一科都落榜的狀況,兩年後的今天,已經可以考出全科榜首的成績,可見AI進步的速度有多快。
報導說,東京LifePrompt公司在27日進行的分析顯示,將今年的東京大學與京都大學入學考試題目交由生成式AI「ChatGPT」解答後,在東京大學六個入學科別中,已全部拿到超越人類榜首的分數。
其中,在最難考的東大理科三類(通常進入醫學系),ChatGPT比起人類榜首的最高分,還高出50分,數學更是拿到滿分。在2024年的東大入學考試中,ChatGPT當時還只考到全科落榜。
這項分析同時採用了OpenAI公司的「ChatGPT 5.2 Thinking」模型,Anthropic公司的「Claude 4.5 Opus」模型,以及Google的「Gemini 3 Pro Preview」模型進行答題。工作人員把考卷題目轉為影像數據輸入,餵給這些大型語言模型(LLM)的生成式AI進行解答。
東京大學與京都大學都有校內自行舉辦的所謂「二次考試」。分析中會把AI對這些校招考試的答券分數,和今年1月舉行的日本大學入學共通考試(共通TEST)分數,加總之後與實際上各科考到榜首的學生分數進行比較。
由於包含並非固定答案的申論題,LifePrompt聘請大型補習班「河合塾」的講師對申論題閱卷給分。
理科大贏,文科的申論題卻是AI弱項在東大的考試結果中,總分550分,ChatGPT在文科一至三類獲得452.7分,理科一至三類則獲得503分。根據東大公佈的錄取最高分,文科最難考的文科三類榜首是434.96分,理科三類的榜首是453.6分。ChatGPT的分數在理科的領先優勢極為驚人,超越榜首將近50分;文科上的領先幅度較小,超越榜首近18分。
文科的論述題目似乎是AI的弱點,ChatGPT可以在今年公認非常難的理科數學考卷拿滿分,但是在文科的世界史申論題上,僅能拿到約25%分數。
同樣的狀況也發生在Claude與Gemini兩個受測模型。Claude在東大文科一類、三類的得分,還是輸給真人榜首;Gemini在東大文理六科中全部超越榜首,但是同樣出現理科超越幅度大、文科超越幅度較小的狀況。
在京都大學的測試方面,ChatGPT全科都考贏榜首,Claude與Gemini則是在京都大學文學部考試輸給真人榜首。Claude也考輸京大理學部、工學部、工學部資訊科、醫學科的實際人類榜首。