阿里雲通義開源過程獎勵PRM模型，7B尺寸比GPT-4o更能發現推理錯誤

藍鯨新聞1月16日電，藍鯨新聞獲悉，今日，阿里雲通義開源全新的數學推理過程獎勵模型Qwen2.5-Math-PRM。在識別推理錯誤步驟能力上，Qwen2.5-Math-PRM以7B的小尺寸就可以超越GPT-4o。同時，通義團隊還開源首個步驟級的評估標準 ProcessBench，填補了大模型推理過程錯誤評估的空白。（記者武靜靜）

相關資訊

▣ 阿里發佈開源多模態模型Qwen2-VL，多項性能超越GPT-4o
▣ 阿里雲通義開源首個多模態推理模型QVQ
▣ 阿里雲通義開源首個多模態推理模型，OpenAI入局人形機器人 | 藍媒GPT
阿里雲通義開源首個多模態推理模型QVQ，視覺推理比肩OpenAI o1
▣ 阿里雲通義千問發佈業界首個開源多模態推理模型
▣ 阿里雲通義開源多模態推理模型QVQ在多領域表現突出
▣ 阿里雲通義開源視覺理解模型Qwen2.5-VL
▣ 阿里雲通義千問推出開源Qwen2.5-1M模型
▣ 通義千問開源數學模型Qwen2-Math 測評得分超GPT-4o
▣ 阿里雲通義開源視覺模型Qwen2.5-VL
▣ 剛剛，開源大模型的新王誕生了：超越GPT-4o，模型還能自動糾錯
▣ 阿里雲發佈通義千問2.5，開源通義千問1100億參數模型
OpenAI推輕量版大型自然語言模型GPT-4o mini 規模更小、圖文理解能力更高
▣ DeepSeek全尺寸模型上線阿里雲百鍊
▣ OpenAI推出GPT-4o mini人工智能模型
▣ 通義千問升級旗艦模型Qwen-Max，性能接近GPT-4o
▣ 阿里發佈AI模型新版本：稱已超越DeepSeek和GPT-4o
▣ 阿里雲正式發佈通義千問2.5，開源通義千問1100億參數模型
▣ 訊飛星火深度推理模型15日發佈，阿里雲上線AI程序員 | 藍媒GPT
▣ 阿里雲發佈開源模型Qwen2
▣ 數智早參｜蘋果推出開源大模型OpenELM；阿里雲宣佈EMO模型上線通義APP
▣ 阿里雲通義開源長文本模型及推理框架百萬Tokens處理速度提升近7倍
▣ 阿里通義千問推出開源Qwen2.5-1M模型，長上下文處理能力顯著提升
▣ AI早知道｜OpenAl 開放 GPT-4o 微調功能；微軟發佈開源輕量級AI模型
OpenAI王炸新一波：向第三方開發者開放最強推理模型o1，更低價GPT-4o進入API
▣ 阿里通義千問開源首個MoE模型
▣ 阿里通義千問Qwen2大模型發佈並同步開源
▣ 阿里巴巴稱其新AI模型性能全球領先超越GPT-4o、DeepSeek-V3
▣ 百川智能開源全模態模型Omni-1.5上線，稱多項能力超越GPT-4o mini