阿里雲通義開源過程獎勵PRM模型,7B尺寸比GPT-4o更能發現推理錯誤

藍鯨新聞1月16日電,藍鯨新聞獲悉,今日,阿里雲通義開源全新的數學推理過程獎勵模型Qwen2.5-Math-PRM。在識別推理錯誤步驟能力上,Qwen2.5-Math-PRM以7B的小尺寸就可以超越GPT-4o。同時,通義團隊還開源首個步驟級的評估標準 ProcessBench,填補了大模型推理過程錯誤評估的空白。(記者 武靜靜)