OpenAIo1非GPT-4o直接進化;微軟發佈 WindowsAgentArena基準框架;英偉達開源小語言AI模型|極新早報

“未來不是固定在那裡等你趨近的,而是要靠你創造。未來的路不會靜待被發現,而是需要開拓,開路的過程,便同時改變了你和未來。”

文|小魚

編輯 | 雲舒

出品|極新

要點速覽

1、 OpenAI o1 非 GPT-4o 直接進化,在成本與性能上妥協

2、 微軟發佈 Windows Agent Arena 基準框架,評估 AI Agents 運行主流 Windows 應用性能

3、 英偉達開源 Nemotron-Mini-4B-Instruct 小語言 AI 模型:專爲角色扮演設計,9216 MLP、上下文長度 4096 詞元

4、 百度聯盟大會發布首個智能體聯盟解決方案

5 、 恆生指數收盤漲逾1% 美的集團港股上市首日漲近8%

6、微軟計劃回購至多600億美元股票並提高派息

▌IPO/投融資

1、AI芯片研發商「中昊芯英」完成2.5億人民幣戰略投資,投資方爲艾布魯。

中昊芯英是一家AI芯片研發商,致力於研發全新架構、專爲AI訓練設計的高性能芯片,爲AI企業提供訓練效率及模型精度雙提升的解決方案。

2、家庭電器生產製造商「美的集團」完成270億港幣IPO輪融資,公開發行。

美的集團是一家家庭電器生產製造商,致力於爲用戶提供多元化的家用電器產品,種類包括空調、冰箱、洗衣機、廚房家電及各類小型家電,並通過機器人及工業自動化設備爲用戶打造舒適的傢俱環境。

3、半導體晶圓級封裝設備提供商「華芯智能」完成數千萬人民幣A+輪融資,投資方爲霞印投資。

華芯智能是一家半導體晶圓級封裝設備提供商,集研發、生產、銷售、服務於一體。致力成爲全球優質的一站式半導體晶圓級封測分選檢測和平板級封裝貼晶機方案供應商,助力中國自主芯片振興。主營產品是先進封測設備,WLCSP專用設備,Panel 級封測設備,Fanout封裝設備,SIP封測專用設備。

4、工業自動化產品研發商「莫洛奇」完成數千萬人民幣A輪融資,由東運創投、 鬆禾資本領投。

莫洛奇是一家工業自動化產品研發商,其主營項目:磁懸浮智能柔性傳輸線、直驅電機、半導體設備精密運動平臺以及納米級氣浮平臺。

▌科技要聞

1、OpenAI o1 非 GPT-4o 直接進化,在成本與性能上妥協

9 月 14 日消息,OpenAI 已經推出了新模型 OpenAI o1 的兩大變體 ——o1-preview 與 o1-mini,這兩款模型都有許多值得深入探討的內容。人工智能專家西蒙・威利森(Simon Willison)專門發文,深入剖析了這些新模型背後的設計理念與實現細節,揭示了它們在技術上的獨特優勢與不足。威利森表示,o1 並不是簡單的 GPT-4o 直接升級版,而是在強化“推理”能力的同時,做出了成本與性能上的權衡。

1. 訓練思維鏈

OpenAI 的聲明是一個很好的起點:“我們研發了一系列新型人工智能模型,旨在讓它們在做出響應前花更多時間思考。”

這些新模型可以視爲思維鏈提示策略的深化拓展 ——“分步思維”策略的具體實踐。實際上,人工智能社區在這個領域已探索了數年,這一策略首次在 2022 年 5 月發佈的論文《大語言模型是零樣本推理器》(Large Language Models are Zero-Shot Reasoners)中提出。

OpenAI 發佈的《與大語言模型共學推理》(Learning to Reason with LLMs)一文詳細闡述了新模型的訓練方法,揭示了其能力提升背後的秘密。文中指出:

“我們的大規模強化學習算法精心設計了訓練流程,使模型在高效利用數據的同時,能夠熟練運用思維鏈進行深度思考。我們發現,隨着強化學習訓練時間的增加以及模型在測試時分配更多思考時間,o1 的性能持續顯著提升。值得注意的是,這種擴展方法的限制與大語言模型預訓練中的挑戰有很大不同,我們正繼續深入探索這些新界限。”

通過強化學習的訓練,o1 不僅學會了優化其思維鏈的使用,還掌握了自我提升的關鍵技能。o1 能夠識別並糾正錯誤,將複雜難題拆解爲一系列更易處理的子任務。當現有方法失效時,它會嘗試不同的方法直至找到最佳解法。這一過程極大提升了模型的推理能力。

實際上,這標誌着模型在處理複雜提示方面實現了質的飛躍。面對那些需要回溯與深入“思考”的任務時,模型能夠展現出更加出色的表現,而不再僅僅依賴於下一個 Token 預測。

威利森指出,雖然他對“推理”一詞在大語言模型中的定義有保留,但鑑於 OpenAI 已明確採用此術語,併成功表達了新模型致力於解決的核心問題,他認爲這種表達在此情境下是恰當且有效的。

2. 來自 API 文檔的底層細節

關於新模型及其設計權衡,OpenAI 在 API 文檔中提供了許多有趣的細節:

對於依賴圖像輸入、函數調用或追求即時響應速度的應用場景,GPT-4o 及其精簡版 GPT-4o mini 仍是理想選擇。然而,如果你的項目需要深度推理能力,且能夠適應較長的響應時間,那麼 o1 模型無疑是更優的選擇。

威利森從 OpenAI 的文檔中摘錄了幾個關鍵點:

API 訪問權限:目前,o1-preview 與 o1-mini 的訪問僅限於五級賬戶用戶,且 API 積分累計需達到至少 1,000 美元方可解鎖。

系統提示限制:模型集成了現有的聊天完成 API,但僅支持用戶與助手之間的消息交互,不支持系統提示功能。

其他功能限制:當前模型不提供流處理支持、工具集成、批處理調用或圖像輸入。

響應時間:鑑於模型解決問題所需推理量的不同,處理請求的時間可能介於幾秒至幾分鐘不等。

尤爲引人注目的是“推理 Token”的引入。這些 Token 在 API 響應中不可見,卻扮演着至關重要的角色,是驅動新模型能力的核心,且作爲輸出 Token 計費並計數。鑑於推理 Token 的重要性,OpenAI 建議爲充分利用新模型的提示預留約 25,000 個推理 Token 的預算。

爲此,輸出 Token 的配額顯著提升:o1-preview 的配額增至 32,768 個,而 o1-mini 則高達 65,536 個。相比於 GPT-4o 及其 mini 版(兩者的配額均爲 16,384 個),這一增加爲用戶提供了更多資源。

API 文檔還提供了一個新穎且關鍵的提示,旨在優化檢索增強生成(RAG):在整合附加上下文或文檔時,應嚴格篩選,保留最相關的信息,以避免模型生成過於複雜的響應。這與 RAG 的傳統做法截然不同,後者傾向於將大量潛在相關文檔納入提示。

3. 隱藏的推理 Token

令人遺憾的是,推理 Token 在 API 調用中處於隱藏狀態。用戶需要爲這些 Token 支付費用,卻無法得知其具體內容。OpenAI 對此政策的解釋如下:

“隱藏思維鏈的初衷在於確保模型‘思維’過程的獨立性和表達自由,避免外界干預或操控其推理邏輯。展示模型的完整思維鏈可能暴露不一致性,並影響用戶體驗。”

這項決策基於多重考量:一方面是爲了確保安全與策略的遵從性,另一方面則是爲了保持技術上的競爭優勢,避免競爭對手利用推理成果進行訓練。

作爲對大語言模型發展持保留意見的一方,威利森對此決定並不滿意。他認爲,在追求技術創新的同時,保持可解釋性與透明度至關重要。關鍵細節的隱藏,意味着對透明度的一種削弱,感覺像是一個倒退的舉措。

4.示例解讀

OpenAI 在“思維鏈”部分提供了許多示例,包括 Bash 腳本生成、填字遊戲解答和化學溶液 pH 值計算等,初步展示了這些模型在 ChatGPT 用戶界面下的思維鏈能力。但它並未展示原始的推理 Token,而是通過一種優化機制,將複雜的推理步驟簡化爲易於理解的摘要。

OpenAI 還額外提供了兩份文檔,展示了更爲複雜的例子。在“使用推理進行數據驗證”一例中,o1-preview 演示瞭如何在 11 列 CSV 數據中生成示例,並通過多種策略驗證數據的正確性;而“使用推理生成例程”則展示瞭如何將知識庫文章轉化爲大語言模型能夠解析並執行的標準化操作流程。

威利森也在社交媒體上徵集了許多 GPT-4o 未能成功應對卻在 o1-preview 上表現出色的提示案例。其中兩個尤爲引人注目:

字數計數挑戰:“你對這個提示的回答有多少字?” o1-preview 模型在給出“這個句子裡有七個單詞”之前,耗時約十秒並經歷了五次推理過程。

幽默解析:“解釋一下這個笑話:‘兩頭牛站在地裡,一頭牛問另一頭:‘你怎麼看瘋牛病?’ 另一頭說:‘無所謂,我是直升機。’” o1-preview 給出了既合理又詳細的解釋,而其他模型對此無解。

儘管如此,優質的示例仍然較少。OpenAI 研究員 Jason Wei 指出,儘管 o1 在 AIME 和 GPQA 測試中的表現非常強大,但這種效果並不總是直觀可感。找到讓 GPT-4o 失手而 o1 表現出色的提示並不容易,但當你找到時,o1 的表現堪稱神奇。大家都需要尋找更具挑戰性的提示。

另一方面,沃頓商學院管理學教授、人工智能專家伊森・莫里克(Ethan Mollick)通過幾周的預覽體驗,對 o1 給出了初步評價。他特別提到了一個填字遊戲示例,其中 o1-preview 模型展現了清晰的推理步驟,如指出 1 Across 與 1 Down 的首字母不匹配,並主動建議替換答案以確保一致性。

5.推理模型的未來

人工智能領域這一新進展帶來了諸多待解之謎與潛在機遇,社區正逐步探索這些模型的最佳應用場景。在此期間,威利森預計 GPT-4o(及 Claude 3.5 Sonnet 等模型)將繼續發揮重要作用。同時,我們也將見證這些推理模型如何擴展我們的思維模式,解決更多前所未有的任務。

此外,威利森期待其他 AI 實驗室,特別是開放模型權重社區,能夠積極跟進,利用各自獨特的模型版本復現並深化這些思維鏈推理的成果。(IT之家)

2、谷歌推出 DataGemma:基於可信數據源提高 AI 準確度,減少幻覺

9 月 15 日消息,科技媒體 NeoWin 昨日(9 月 14 日)發佈博文,報道稱微軟官方推出了 Windows Agent Arena 基準框架,用於評估生成式 AI Agents 在 Windows PC 上的性能。

Windows Agent Arena 基準框架

微軟表示該基準框架 AI Agents 使用主流 Windows 應用方面的能力和速度,其中包括 Microsoft Edge 和谷歌 Chrome 瀏覽器,Visual Studio Code 等編程應用,記事本、時鐘和畫圖等預裝 Windows 應用,VLC 等主流媒體播放器。

翻譯部分微軟官方博文內容如下:

微軟研究院也打造了自己的多模態 Agents Navi,並在 Windows Agent Arena 基準測試中對其進行了試驗。

它被要求根據特定文本提示執行任務,例如:“你能將我正在瀏覽的網頁轉換成 PDF 文件並放置在我的主屏幕上嗎,就是那個桌面?”結果顯示,Navi 的平均任務成功率爲 19.5%,相較於人類 74.5% 的表現評分,這一成績仍顯偏低。(IT之家)

3、英偉達開源 Nemotron-Mini-4B-Instruct 小語言 AI 模型:專爲角色扮演設計,9216 MLP、上下文長度 4096 詞元

9 月 15 日消息,科技媒體 marktechpost 昨日(9 月 14 日)發佈博文,報道稱英偉達開源了 Nemotron-Mini-4B-Instruct AI 模型,標誌着該公司在 AI 領域創新又一新篇章。

小語言模型的大潛力

Nemotron-Mini-4B-Instruct AI 模型專爲角色扮演、檢索增強生成(RAG)及函數調用等任務設計,是一個小語言模型(SLM),通過蒸餾(distilled)和優化更大的 Nemotron-4 15B 獲得。

英偉達使用剪枝(pruning)、量化(quantization)和蒸餾(distillation)等先進 AI 技術,讓該模型更小巧高效,尤其適用於設備端部署。

這種縮小化並未影響模型在角色扮演和功能調用等特定場景下的性能,讓其成爲需要快速按需響應的應用的實用選擇。

該模型在 Minitron-4B-Base 模型上微調,採用了 LLM 壓縮技術,最顯著的特點之一是其能夠處理 4096 個上下文窗口詞元(token),能夠生成更長且更連貫的回覆。

架構與技術規格

Nemotron-Mini-4B-Instruct 以其強大的架構著稱,確保了高效性與可擴展性。

該模型的 Embedding Size(決定了轉化後的向量的維度)尺寸爲 3072,多頭注意力(Multi-Head Attention)爲 32 個,MLP 中間維度爲 9216,在處理大規模輸入數據集時,仍能以高精度和相關性作出響應。

此外,模型還採用了組查詢注意力(GQA)和旋轉位置嵌入(RoPE)技術,進一步提升了其處理與理解文本的能力。

該模型基於 Transformer 解碼器架構,是一種自迴歸語言模型。這意味着它根據前面的標記生成每個標記,非常適合對話生成等任務,其中對話的連貫流暢至關重要。

角色扮演與功能調用應用

Nemotron-Mini-4B-Instruct 在角色扮演應用領域表現尤爲突出。憑藉其龐大的標記容量和優化的語言生成能力,它可以嵌入到虛擬助手、視頻遊戲或任何其他需要 AI 生成關鍵響應的交互式環境中。

英偉達提供了一種特定的提示格式,以確保模型在這些場景中,尤其是在單輪或多輪對話中,輸出最佳結果。

該模型還針對函數調用進行了優化,在 AI 系統必須與 API 或其他自動化流程交互的環境中變得越來越重要。生成準確、功能性響應的能力使得該模型非常適合 RAG 場景,即模型需要創建文本並從知識庫中檢索和提供信息。(IT之家)

4、百度聯盟大會發布首個智能體聯盟解決方案

9 月 16 日消息,9 月 12 日,2024 年百度聯盟大會在深圳召開。百度向聯盟夥伴展示了智能體在開發平臺、分發場域以及變現解決方案等方面的全鏈路佈局。

除此之外,百度還對聯盟生態進行了全面升級,發佈智能體聯盟變現解決方案以及“分發 + 變現”一體化解決方案,爲聯盟夥伴及智能體開發者帶來新場景、新流量及新變現機會。

據百度官方透露,百度文心智能體平臺已經吸引了 10 萬家企業、60 萬名開發者,覆蓋了上百個應用場景。

在智能體分發上,百度形成了以搜索爲代表的智能體分發池。百度副總裁、百度搜索總經理趙世奇用關鍵詞“1+N”總結了智能體在百度搜索的分發策略。“1”代表搜索消費場景內的分發,“N”意爲多終端場景的覆蓋,意味着開發者僅需一次開發,便能觸及百度搜索及文小言、小度、貼吧、網盤等場景。目前,智能體在百度生態的 8 月日均分發量突破千萬。

據IT之家 9 月 4 日報道,百度官宣文心一言 App 正式升級爲文小言,定位百度旗下“新搜索”智能助手。

百度副總裁、AI 創新業務負責人薛蘇現場透露,截至目前,文小言月活躍用戶已超千萬,已有百萬量級智能體在平臺分發。(IT之家)

▌股市風雲

1、恆生指數收盤漲逾1% 美的集團港股上市首日漲近8%

9月17日,港股市場全線爆發。截至收盤,香港恆生指數上漲1.37%,恆生中國企業指數上漲1.41%,恆生科技指數上漲1.12%。銀行、耐用消費品與服裝、能源行業領漲港股市場。焦點股方面,騰訊控股漲0.58%,美團-W漲1.66%,理想汽車-W漲6.26%,康方生物漲0.84%。佳兆業集團早盤一度漲近40%,收盤漲17.44%。美的集團在港股上市首日漲超7%。(中國證券報)

2、微軟計劃回購至多600億美元股票並提高派息

微軟宣佈最高600億美元的股票回購計劃並將季度派息從每股75美分提高到每股83美分。回購計劃沒有截止日期。彙總的數據顯示,本輪迴購計劃佔該公司當前市值的1.9%。(財聯社)

▌好文推薦

“國內賣會員,想賺大錢很難。"

更多幹貨分享敬請關注我們的公衆號與視頻號~超多精彩對話內容等待您的解鎖!

掃碼加入【極新】科技行業交流羣,探索科技前沿趨勢,本羣適合創始人、CXO、行業高管。

關於極新:

極新是垂直於產業AI的創投和行業研究媒體,致力於陪伴和記錄科技企業進步和產業成長。已與多家平臺和創新企業深度對話和合作,包括華爲雲、阿里雲、百度智能雲、金山雲、飛書、火山引擎、釘釘、東軟、Zoho、容聯雲、百家雲等平臺企業,以及智譜AI、百川智能、格靈深瞳、深勢科技、百圖生科、瑞萊智慧、創客貼、生數科技等高成長公司。

2024投融資趨勢追蹤:| | | | | |

深度對話·創新&增長的源動力:| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |