微軟昨夜AI全家桶狂飆:GPT-4o上雲,納德拉現場表白OpenAI,Altman劇透新模型

智東西作者 智東西編輯部

一夜之間,微軟的AI全宇宙已經成型。

今日凌晨,在一年一度的2024微軟Build大會上,微軟CEO薩蒂亞·納德拉(Satya Nadella)一口氣宣佈了50多項AI能力更新,覆蓋GPT-4o上雲、自研Cobalt芯片、團隊版Copilot、SOTA小模型等多個方面。

作爲一場AI圈“開發者盛宴”,本次微軟Build大會的發佈主要有以下核心亮點:

1、宣佈GPT-4o在Azure AI上普遍可用,並引入Cohere、Databricks、Meta、Mistral等公司以及開源社區Hugging Face的多個大模型,一邊手握OpenAI,一邊狠抓第三方模型及開源模型。

2、6月馬上推出Windows Copilot庫,包含40多種型號的模型以及多種開箱即用的本地API。

3、推出42億參數多模態SLM(小語言模型)Phi-3-vision,支持圖像理解與交互;同時提供70億參數的Phi-3小型模型和140億參數Phi-3中型模型,支持跨操作系統及雲邊端運行。

Phi-3-vision開源地址:https://huggingface.co/microsoft/Phi-3-vision-128k-instruct

4、推出最新端側小模型Phi-Silica,專爲Copilot+PC中的NPU設計,在SLM中取得SOTA。

5、宣佈將通過Windows DirectML提供對PyTorch、WebNN框架的原生支持,開發人員將擁有了一個Web原生的機器學習框架,使其能直接訪問GPU和NPU。

6、引入Copilot連接器(Copilot connectors),支持連接業務數據、工作流以及第三方SaaS應用程序,助企業構建和定製Copilot。

7、推出團隊版Copilot(Team Copilot),能扮演會議主持人、記錄會議筆記、製作圖表、管理工程等多種角色,並擴展出Agent(智能體)能力。

8、Azure AI Studio平臺將推出自定義模型功能,同時數據分析平臺Microsoft Fabric增加了全新的實時智能功能。

9、向客戶開放其自研芯片定製CPUAzure Cobalt預覽版,性能最高提升40%。

10、宣佈其將成首批提供英偉達Blackwell GPU的平臺,發佈配備RTX GPU的Copilot+PC;與AMD擴展合作,Azure將成爲首個提供加速器ND MI300X V5通用版的雲平臺。

納德拉提到,過去一年最突出的(趨勢)是開發者如何利用大模型的能力去改變世界。

目前,微軟已經建造了三個平臺:首先是Microsoft Copilot,成爲用戶的日常助理,幫助用戶採取行動;第二個是Copilot堆棧,幫助開發者更快構建AI應用、解決方案;第三個是Copilot+PC,第一臺AI PC。(微軟向蘋果開火!AI PC全家桶裝上GPT-4o,AI實時聊天教你打遊戲,高通贏麻了)

值得一提的是,在大會進行了超過2小時的最後時刻,OpenAI CEO薩姆·阿爾特曼(Sam Altman)現身,他透露新模式和整體智能將是OpenAI下一個模型的關鍵,同時速度和成本也很重要。

一、自研Cobalt芯片公開預覽,將發RTX GPU版Copilot+PC

納德拉稱,微軟今天將發佈50餘項更新,按照Copilot堆棧的結構順序來解讀。

在AI基礎設施方面,納德拉談道,爲貫徹可持續發展,到2025年,微軟所使用的能源將100%來自零碳能源。

去年11月,微軟發佈了首個雲上AI超級計算機。現在,Azure的超算能力提升至30倍。

在與英偉達的合作上,雙方覆蓋了從雲、AI平臺到App應用的全棧流程。

微軟將成爲首批提供英偉達Blackwell GPU的平臺,在未來幾個月將發佈配備RTX GPU的Copilot+PC,爲遊戲玩家、創作者和開發人員提供更高的性能,以應對本地AI工作負載,同時提供微軟全新的Copilot+功能。

微軟宣佈與AMD擴展合作,Azure將成爲首個提供加速器ND MI300X V5通用版的雲平臺,它將提供最佳的GPT-4性價比。

微軟Azure Maia也持續更新,其首個集羣已上線,正在爲Copilot、Azure OpenAI等服務提供算力支持。

微軟基於Arm的CPUAzure Cobalt進入公開預覽階段,性能最高提升40%。納德拉稱,Cobalt被用於Microsoft 365中的視頻處理和權限管理,已經支持了Microsoft Teams等服務中的數十億次對話,目前已服務了西門子、Snowflake等企業。

二、GPT-4o接入Azure,多模態小模型Phi-3-vision亮相

目前已經有超過5萬個組織使用Azure AI。納德拉稱,這一切都始於其與OpenAI的戰略合作。

微軟宣佈GPT-4o即日起在Azure AI上普遍可用。這意味着現在任何應用程序、網站都可以變成一個多模態、全雙工的會話界面。

比如用戶可以在網頁中獲取Agent的主動詢問服務,當得知用戶在爲露營做準備時會爲他提供建議,幫他挑選需要加入購物車的物品。

就在上週,OpenAI推出最新多模態模型的GPT-4o,昨天微軟展示了Copilot如何在視頻中利用GPT-4o,支持用戶分享屏幕或會話以獲取Copilot的幫助,無論是輔助遊戲、編輯文檔還是編程都能勝任。

比如用戶在一個遊戲中設法制作一把劍,Copilot可以識別用戶的屏幕,與用戶對話並幫他完成這項遊戲任務,比如提醒他“需要一些材料”、“按鍵盤上的E打開裝備庫”、“去收集木頭、石頭等資源”等。

接下來,微軟還帶來了很多其他模型,包括Cohere、Databricks、Meta、Mistral、 Snowflake等公司的模型都可以在Azure AI獲取。微軟宣佈接下來將從Core42、NTT DATA等平臺中引入新的模型。

既要OpenAI,又要Open的AI,微軟宣佈加強與開源社區Hugging Face合作,將從其引入更多的模型接入Azure AI Studio。

微軟不僅在發展大語言模型,還希望領導小語言模型革命。

微軟現在正在擴充Phi-3系列小模型的版本,宣佈推出具有語言和視覺功能的42億參數多模態模型Phi-3-vision。它可以對圖像進行推理,產生見解並回答圖像相關的問題。

微軟還將提供一個70億參數的Phi-3小型模型和一個140億參數Phi-3中型模型。通過Phi-3,用戶可以構建跨Web、Android、iOS、Windows和Edge的應用程序,也可以在本地硬件和雲端之間快捷轉換。

從基準測試來看,最強開源模型大有易主之勢。中杯Phi-3-Medium以14B的參數,性能逼近混合專家模型Mixtral 8x22B和70B參數的Llama 3。

超小杯多模態模型Phi-3 Vision表現也相當出色,以僅4.2B的參數,性能比肩Gemini 1.0 Pro V和Claude-3 Haiku。

今天,微軟還宣佈推出Phi-Silica這一SOTA SLM,它由專門爲NPU和Copilot+PC設計的Phi-3系列構建,提供快如閃電的設備推理和首個Token響應能力。Windows是第一個擁有當下最先進的面向NPU定製的SLM平臺。

三、推出Windows Copilot庫,原生支持PyTorch等框架

爲了使Windows能夠成爲構建AI應用程序的最佳平臺,微軟將於6月推出Windows Copilot庫,其中包含多種開箱即用的本地API,以及40多種型號模型,涵蓋了從低代碼工具到複雜管道,再到完全多模態模型的多個部分。

以Recall體驗爲例,它依賴於與Windows深度集成的設備模型來捕獲屏幕上的上下文,將數據轉換爲向量嵌入並建立索引,從而支持用戶直接回到應用程序過去的位置並進行操作。Edge和Microsoft 365應用程序都已經支持這一功能,很快Recall就會在微軟365圖表中提取上下文。

Windows Copilot庫還提供RAG(檢索增強生成)能力,用戶可以用它來處理本地數據,在自己的應用程序中使用該能力。

微軟宣佈即日起,將通過Windows DirectML提供對PyTorch、WebNN框架的原生支持,這意味着Web開發人員終於擁有了一個Web原生的機器學習框架,使其能直接訪問GPU和NPU。

四、發佈Copilot Runtime,AI時光倒流,隨時回溯PC頁面

此外,微軟宣佈讓微軟Teams成爲開發人員與AI合作編程的最佳場所,在本週將發佈完整的政策公告。

開發者將可以在微軟Teams中使用並獲取源代碼,同時微軟宣佈推出 “現在見面(Meet Now)”功能,支持Teams團隊成員之間在幾秒鐘內解決問題。此外用戶將可以在Teams中使用自定義表情符號。

昨天微軟宣佈Copilot接入PC,但構建一個強大的AI平臺需要的不僅是一個芯片或模型,而是從上到下重構整個系統。

新的Windows Copilot運行時是將Copilot堆棧擴展到Windows系統,Windows Copilot運行時是Windows 11的一個新組成部分。它包括Windows Copilot庫、AI框架和工具鏈,同時它建立在強大的客戶端芯片基礎上。

Windows Copilot運行時在操作系統方面,用戶可以藉助Copilot Runtime回溯他們在電腦收件箱中看到的任何東西;照片和繪畫方面的應用程序讓用戶可以使用實時圖像生成和一些濾鏡效果將想法變爲現實。

五、GitHub Copilot可擴展,開發者自定義Copilot

Copilot是生成式AI時代的第一款熱門產品,目前GitHub Copilot已經有超過180萬開發者,微軟正在授權讓開發者都能使用自己的母語訪問編程語言和知識。

GitHub Copilot WorkSpace可以根據其對代碼庫的深刻理解創建規範,然後創建計劃,用戶就可以執行計劃生成代碼,這個過程中,從計劃到代碼,開發者都可以進行編輯,這是一種從根本上構建軟件的新方法。微軟將在未來幾個月內廣泛提供這一工具。

同時,微軟通過Copilot連接了更廣泛的開發人員工具和服務生態系統。

GitHub正在推出第一組由微軟和第三方合作伙伴開發的GitHub Copilot擴展的私人預覽版。這些新增功能允許開發人員和組織直接在GitHub Copilot Chat中使用Azure、Docker、Sentry等自定義GitHub Copilot體驗。

GitHub工程副總裁Neha Batra演示了GitHub Copilot的能力。例如,開發者可以要求它用Java寫一段質數測試,但是用西班牙語語音交互。

//oss.zhidx.com/uploads/2024/05/664ce4af035b9_664ce4aef17c7_664ce4aef1799_西班牙語交互.mp4

開發者可以@Azure並詢問它可用的資源在哪裡。

在網頁端,開發者也可以讓Copilot幫忙更新README文檔。

六、引入Copilot連接器,連接內外部應用,定製開發智能體

開發人員現在可以在數據層、體驗層構建Copilot擴展以進一步自定義Copilot。

納德拉談道,Copilot正在深入各行各業,例如68%的市場人員稱Copilot幫助他們啓動了創意流程、70%的知識工作者稱Copilot幫助他們提升效率、在客服場景Copilot使得問題解決速度提升12%……

微軟宣佈將引入Copilot連接器(Copilot connectors),它能夠使用業務數據、應用程序和工作流,幫助企業構建和定製Copilot。企業還可以通過該工具連接第三方SaaS應用程序,包括來自Adobe、Snowflake、ServiceNow等企業的服務。

微軟將Copilot從個人助手擴展到團隊助手,宣佈推出團隊版Copilot(Team Copilot)。

它能在團隊協作中扮演任何角色,例如扮演會議主持人、記錄會議筆記、製作圖表、管理工程等。該功能將在今年晚些時候上線。

不僅如此,Copilot還將擴展出Agent(智能體)能力。用戶可通過自然語言指令,或選擇已有模板,讓Copilot化身不同領域的專家。納德拉說:“我認爲這是明年將帶來真正改變的關鍵一步。”

微軟可以在所有的Copilot體驗以及Microsoft Team中進行切換,開發者只需在SharePoint中單擊,開發者的數據、應用、操作等就可以同步。

同時,Copilot擴展可以在任何地方任何設備上運行。Copilot的工作原理是對用戶提示進行推理並將其映射到正確擴展,或者使用擴展程序進行更深入對話。擴展程序會提供快速操作的建議,向用戶展示相關功能,使得Copilot能實時獲取知識。

這些Copilot擴展也可以在團隊會議、一對一聊天等各種場景使用。

此外,微軟宣佈將Windows Volumetric Apps引入Meta Quest頭顯,將Copilot引入3D虛擬空間。

七、端到端工具平臺更新,Microsoft Fabric實時智能功能上線

Azure AI Studio提供端到端的工具解決方案,用於幫助開發者構建、訓練、微調AI模型,同時提供了評估AI模型和應用的性能和質量,以及用以檢測和組織提示詞中是否注入攻擊的工具。

模型會有很多具體的自定義用例,微軟Azure AI coustom models(自定義模型)功能即將推出,使得開發者可以構建專屬自己的相應領域和數據模型。

該平臺有五大優勢,包括所有人都可以構建自定義模型、輸出將特定於域、多任務處理、基準定義的多模態最佳、特定語言能力。

在數據方面,微軟爲端到端數據分析平臺Microsoft Fabric增加了全新的實時智能功能,現已爲開發者提供預覽版。

在數據層面,爲了訓練微調模型,微軟正在構建從操作、存儲到分析的完整數據狀態的平臺。這其中的核心就是Microsoft Fabric,目前該平臺已經有超11000名客戶。

Microsoft Fabric中實現了計算、存儲以及用戶的體驗與治理相互統一,並且允許開發者基於該平臺在Azure之外的任何地方都可以進行數據處理。

實時智能功能可供無代碼能力分析師和專業開發者使用。在該平臺中,開發者可以獲得有關數據流的實時可操作見解,並用於發現、管理和使用這些事件數據;並提供大量的受管控體驗,開發者可以使用開箱即用的連接器從Microsoft和跨雲引入數據,簡單的拖拽操作就能將相關數據引入到Fabric的目錄下。

開發者可以實時分析、探索數據並對其採取行動,微軟還推出了新的Microsoft Fabric工作負載開發套件使獨立軟件供應商(ISV)和開發人員能夠擴展Fabric內的應用程序,從而創建統一的用戶體驗,使這成爲可能。

微軟正在通過Fabric Workload Development Kit構建新的應用程序平臺,集成了空間分析功能,開發者可以使用ESRI的工具和庫分析自己的數據。

八、AI模型邊際收益遞減節點遠未達到,要建造更大超級計算機

微軟CTO凱文·斯科特(Kevin Scott)談道,在過去一年中,微軟基於Copilot堆棧做了大量工作,既優化了系統,使成本更低、功能更強大,還圍繞核心AI平臺構建了整個功能、系統、服務和雲。

爲什麼能做到這一點?他稱,這是因爲微軟部署了最多的生成式AI應用程序,擁有自己的Copilot堆棧,並以安全可靠的方式構建它們。

GPT-4o的一大驚人成就是實時響應用戶的音視頻交互需求,做到自然流暢。背後微軟與OpenAI正在追求一個效率點,通過建造更大的超級計算機來打造下一代大模型。

從去年的GPT-4到今年的GPT-4o,對話價格已經便宜了12倍,而且模型的首個token響應速度也快了6倍。

背後,微軟也正在從構建網絡芯片到數據中心迭代做的全套優化,並基於這些硬件做大量軟件開發工作,以真正釋放硬件性能。

微軟認爲一個值得驚歎的事情是,這裡沒有邊際效益遞減的跡象。今天微軟傳達給大家的一個信息是,隨着時間的推移事物將以極快的速度變得更強大、更便宜。

再來看看小模型。小模型運行所需的計算成本更低,但更適合在設備上運行,這通常意味着質量縮水。但微軟在過去一年發現了一個高效前沿(Efficient Frontier),也就是小模型在場景中實現的質量變得相當高。

沃頓商學院教授Ethan Mollick對此評價道:由於微軟正在訓練模型,因此他比幾乎任何人都更瞭解更多計算的影響,這值得注意。

九、阿爾特曼壓軸現身,網友點踩質問斯嘉麗語音事件

在大會最後,OpenAI CEO薩姆·阿爾特曼(Sam Altman)作爲特別嘉賓出現在現場。他並未明確預告下一代大模型,而是提到“模型會變得越來越智能,一般來說是全面智能”。

阿爾特曼透露新模式和整體智能將是OpenAI下一個模型的關鍵,同時速度和成本也很重要。

他同時提到,OpenAI的研發團隊爲保證GPT-4的安全都足了大量工作,但爲了做到真正對齊,他們必須從研究和創建模型到安全系統,從制定政策到如何進行監控都設立不同的團隊,這是巨大的工作量,但必須部署並讓產品提供給用戶使用。Altman對團隊一起完成的工作感到非常自豪。

不過對於阿爾特曼的現身,網友們似乎“頗有微詞”。在外媒記者提到他的X推文評論區,幾乎全都是調侃或“陰陽怪氣”OpenAI疑似未經允許使用寡姐音色的評論。(OpenAI又惹大麻煩!剽竊寡姐聲音被控訴,不答應就抄)

有網友說:“誰去問問他關於Scarlett Johansson的事?”

還有的配上寡姐動圖,說:“來吧,問出那個問題。”

也有網友諷刺道:“這是我們未經許可使用其聲音的名人名單。”

結語:Copilot加速落地,微軟AI全宇宙初現

正如今年微軟Build大會的主題“How will AI shape your future?(AI將如何塑造你的未來?)”,本次微軟通過基礎設施、模型、軟件工具鏈及應用等多方面50多項更新,讓我們更加具體深切地感受到AI給各行各業帶來的變化,加速滲透進人們的生活。

納德拉說,70年前他有兩個夢想:計算機能否真正理解我們?計算機能幫助我們將更多的數據進行有效推理、計劃和行動嗎?他認爲現在這兩個方面都已經取得真正的突破,Scaling Laws就像莫里斯定律推動信息革命一樣,與模型架構一起推動這場智能革命。

如果說一年前微軟通過推出Windows Copilot並將GPT-4嵌入Windows操作系統,標誌其開建微軟AI全宇宙;那麼今天微軟則通過Copilot的升級及接入各大產品的實踐,使得這個AI全宇宙初步成型,並通過提速降價、生態合作等一系列手段,推動產業進入新的洗牌階段。