☰

首個AI大模型高考全卷評測結果發佈

據上海人工智能實驗室官微，近日，司南評測體系OpenCompass選取6個開源模型及OpenAI的GPT-4o開展首個大模型高考“語數外”全卷能力測試。評測採用全國新課標I卷，參與評測的所有開源模型，開源時間均早於高考，確保評測 “閉卷”性。同時，成績由具有高考評卷經驗的教師人工評判，更加接近真實閱卷標準。首個大模型高考全卷評測結果顯示，阿里通義千問Qwen2-72B、OpenAI的GPT-4o及書生·浦語2.0文曲星（InternLM2-20B-WQX）成爲本次大模型高考的前三甲，對應得分率分別爲72.1%、70.5%和70.4%。大部分模型在“語言”本質上的表現良好，語文平均得分率爲67%，英語更是達到了81%。而數學則是所有大模型的短板，平均得分率僅爲36%；InternLM2-20B-WQX取得了75分的最高分，超過所有受測模型。然而仍未達到及格水平。

首個AI大模型高考全卷評測結果發佈

相關資訊