首個AI大模型高考全卷評測結果發佈

據上海人工智能實驗室官微,近日,司南評測體系OpenCompass選取6個開源模型及OpenAI的GPT-4o開展首個大模型高考“語數外”全卷能力測試。評測採用全國新課標I卷,參與評測的所有開源模型,開源時間均早於高考,確保評測 “閉卷”性。同時,成績由具有高考評卷經驗的教師人工評判,更加接近真實閱卷標準。首個大模型高考全卷評測結果顯示,阿里通義千問Qwen2-72B、OpenAI的GPT-4o及書生·浦語2.0文曲星(InternLM2-20B-WQX)成爲本次大模型高考的前三甲,對應得分率分別爲72.1%、70.5%和70.4%。大部分模型在“語言”本質上的表現良好,語文平均得分率爲67%,英語更是達到了81%。而數學則是所有大模型的短板,平均得分率僅爲36%;InternLM2-20B-WQX取得了75分的最高分,超過所有受測模型。然而仍未達到及格水平。