性能超越 GPT-4 Turbo!「商湯日日新」大升級,國產大模型超市開張了
在大模型的浪潮席捲而來的前幾年,其實也掀起過一陣 AI 創業熱潮。其中商湯科技、曠視科技、雲從科技、依圖科技是這個時期的代表,這四家公司也被稱爲「中國 AI 四小龍」。
到了 OpenAI 掀起的這股新浪潮中,四小龍中的商湯科技還留在舞臺中央。去年 4 月商湯發佈「日日新·大模型」 系列,是國內最早推出基於千億參數大語言模型的公司之一。
商朝的開國君主湯在澡盆上刻了上述自我告誡的格言,恰似今天 AIGC 領域的變化深度,商湯大模型的更新節奏也可謂「日日新」。
兩個月前,商湯推出「日日新 SenseNova 4.0」大模型體系,甚至先 OpenAI 一步首發了全球首個支持不同模態工具調用的 Assistants API。
而今天下午,「又日新」的商湯繼續推出了一系列基於「日日新」的生成式 AI 模型及應用,先給大家劃重點:
AI 2.0 時代,生成式 AI 被視爲推動生產力進步的重要技術,如果能在知識、推理、執行三層能力上實現突破,將真正帶來整個社會生產力的跨越式發展。
上個月,商湯 CEO 徐立在出席 2024 GDC 提出瞭如上觀點,而在今天的發佈會上,他再次強調,商湯在尺度定律的指導下,會持續探索大模型能力的 KRE 三層架構(知識-推理-執行),不斷突破大模型能力邊界。
那麼全新升級的日日新 SenseNova 5.0(以下簡稱:日日新 5.0)又有哪些更新亮點呢?
日日新 5.0 本次更新主要聚集增強了知識、數學、推理及代碼能力,全面對標 GPT-4 Turbo。
在主流客觀評測上,日日新 5.0 達到或超越了去年 OpenAI 在開發者大會上發佈的 GPT-4 Turbo 版本,同時也幾乎全方位碾壓了近期發佈的 Llama 3-70B。
光說不練假把式,在發佈會現場,商湯也全方位展示了日日新 5.0 在語言、數學推理等方面的實際能力。
同樣輸入一道 2022 年的高考作文題,對比 GPT-4 Turbo(僅爲去年 11 月份的版本,下同)可以看到,日日新 5.0 生成的結果脫離了模版套路化的束縛,多了點人味,一看就是能走進高考閱卷老師心坎的文章。
面對數學問題的拷問,GPT-4 Turbo 開始有些招架不住,不僅計算過程複雜,最終得出的結果也是錯誤的,而日日新 5.0 這邊得出的答案則充滿條理性,也完全正確。
行業差異化是大模型競爭中脫穎而出的關鍵因素。
瞄準本土化應用場景的日日新 5.0,在理解中文特有的文化和語境上是要優於 GPT-4 Turbo 的。GPT-4 Turbo 既然不熟悉中文語境,自然也就無法準確把握「老鷹捉小雞」這樣的本土遊戲規則。
多模態能力被業界普遍視爲實現 AGI 的關鍵路徑。
從基準測試結果上看,日日新 5.0 也能與 GPT-4V 打得火熱,並且互有勝負。在實際的案例演示中,日日新 5.0 支持的秒畫生成老象的效果更自然一些,而同樣的問題給到友商,甚至還會出現三條腿的謬誤。
基於同一 Prompt 生成的人像圖,商湯旗下秒畫生成的皮膚紋理自然,既沒有過度磨皮加濾鏡,也順利完成了「美麗」的指標 。考慮到國際上用於訓練 AI 模型的亞洲人像數據庫相對有限,這樣的對比結果也相對正常。
結合多模態和數據分析能力,AI 能夠實現更爲複雜和高級的任務。
日日新 5.0 上能「攻破」長圖的總結描述,中能識別滴滴打車的具體信息,下還能計算中國特有早餐的熱量,同樣的問題給到 GPT-4 Turbo,也許就是兩眼一抹黑。
總說 AI 會重塑工作流,這一次,商湯也特別演示辦公小浣熊在這方面的能力。
將 F1 賽車手周冠宇三年的參賽記錄輸入到系統中,並讓它虎指出出參與比賽數量的柱狀圖,這個任務看似簡單,但實際上也牽涉到複雜的識別難題。
在國際比賽中,周冠宇使用其英文名字參賽。傳統的大模型在處理這類涉及非英文常規拼寫或者特定人物的識別任務時,往往表現不佳。日日新 5.0 升級的辦公小浣熊雖然經歷了一些波折,但最終還是順利繪製出來。
端側大模型,唯快不破
在武俠世界中,「天下武功,唯快不破」強調了速度在實戰中的重要性,而在大模型的戰役中,這一原則同樣適用。
隨着大模型技術的快速發展,不同應用場景的需求日益顯現,智能手機、電腦、VR 眼鏡等終端設備對大模型的使用頻率,性能速度,安全穩定等提出了更高要求。
變得更務實的商湯在本次發佈會也正式推出了 1.8B 規模的 SenseChat-Lite 版本端側⼤模型。
在基準測試中,該端側模型全面超越了 MiniCPM-2B、Phi-2 等同量級的大模型,並且還越級比肩一些 7B、13B 大模型,用徐立的話來說,那就是同等尺度性能最優,跨級尺度全面領先。
研究表明,人眼最快的閱讀速度大概就是 20 字/秒,而搭載 1.8B 商湯端側模型在中端手機上能夠實現 18.3 字/秒的速度,而在旗艦手機則最高支持 78.3 字/秒,成爲業內最快推理速度。
商湯還推出端雲協同解決方案,可以通過智能化判斷協同發揮端雲各自優勢,需要聯網搜索或處理複雜場景時分流至雲端處理,部分場景端側處理佔比超過 80%,從而顯著降低推理成本。
在與「商量」的寥寥幾秒對談中,無論是幾秒生成請假報告,還是總結幾千字的文檔都能快速響應。
端側擴散模型還能實現業內最快推理速度,端側 LDM-AI 擴圖技術在某主流平臺上,推理速度小於 1.5 秒,比友商雲端 app 快10倍,支持輸出 1200 萬像素及以上的高清圖片,支持在端上快速進行等比擴圖、自由擴圖、旋轉擴圖等圖像編輯功能。
現場的演示中,工作人員更是可以做到隨拍隨擴,將端側大模型「唯快不破」的能力展現得淋漓盡致。
並且,據徐立介紹,該端側大模型主要適用於日常對話、常識問答、文案生成、相冊管理、圖片生成、圖片擴展等六大領域,還支持多設備適配,使其能夠靈活地應用於各種不同的場景和設備之中。
對於金融、代碼、醫療、政務等重點行業邊緣側日益增長的 AI 應用需求,商湯還正式推出了高性價比、開箱即用、數據安全、全國產化的企業級的應用一體機,涉及金融、醫療、政務、代碼等四大行業。
以政務智能諮詢問答平臺爲例,它不僅能夠理解用戶提出的問題,還能提供答案的參考來源,極大地提升政務服務的智能化水平。
徐立指出,自然語言仍然不能替代編程語言,當前的「AI 程序員」無法獨立完成複雜的工業級代碼項目,而 Copilot 纔是更適合的形態。
因此,今天商湯還發布了小浣熊·代碼大模型一體機輕量版,單臺支持 100 人規模研發團隊使用。支持數據不出域,安全有保障,免費部署即可開箱即用。每臺售價 35 萬元起,爲中小企業用戶提供了高性價比的選擇。
今年以來,Sora 的出現讓人們見識到了 AI 視頻生成的無限創造潛力,徐立在最後環節也帶來了「One more thing」——三段完全由大模型生成的視頻。即將上線的文生視頻生成平臺也在人物可控性、動作可控性以及場景可控性等方阿敏都有着出色的表現。
AI 應用落地需要一個即插即用的大模型超市
在 GPT-4 發佈一年後,大模型們依然在不斷卷參數刷榜。但今年行業裡已經大家真正關心的,其實是怎麼將大模型通過 Agent,並接入到無數企業和個人的工作流中。
OpenAI 的 GPT Store 沒有如願成爲 AI 行業的 GPT Store,但大量的需求和問題依然擺在那。大模型的強大的能力和落地不同行業場景之間缺乏暢通的橋樑,同時也意味着一個巨大的機遇。
商湯的日日新開放平臺,實際上就是一個大模型超市。通過多模態的模型能力提升 API 的調用效率,降低企業和開發者調用和定製各種 AI 功能的門檻。
比起模型的規模參數,商湯更側重於模型的能力應用。從商湯針對金融、醫療、政務、代碼的行業大模型,到目前行業推理速度最快的端側模型,以及商量、 如影、大醫、小浣熊家族等 AI 原生應用,都可能看出商湯想要提供接口更豐富,能執行不同行業複雜任務的 AI 工具箱。
知名調研機構 Frost & Sullivan 發佈的《2023年中國AI開發平臺市場報告》指出,SenseCore 商湯大裝置已成爲中國 AI 開發平臺雲計算基礎設施供應商的領先者。在硬件基礎設施兼容性、產業鏈合作情況、模型訓練優化模塊、智能標註技術能力、預訓練模型技術水平5個評估項目中,商湯均獲得最高分。
我們前段時間報道過金山辦公的 WPS AI 企業版,其中合作的大模型就有商湯。金山表示商湯在數據分析上比較出色,因此 WPS AI 就調用它處需要理科思維的場景。
APPSO 把金山這種不生產大模型,而是堅定做大模型應用的公司,稱爲 AI 的應用主義者。而商湯在其中扮演的角色,與其說是大模型的提供商,不如說是幫助各行各業大規模應用落地 AI 應用的百貨超市。
什麼是百貨超市?有着廣泛的產品線,能滿足不同消費者大大小小的個性化需求。最重要的是,百貨超市的出現讓種類繁多的商品更容易被大衆獲取,讓更多普通人便捷享受到全世界的優質產品和體驗。
而這,正是方興未艾的 AIGC 未來對我們最大的價值。而公司作爲現代社會最偉大的發明之一,如果說大模型正在帶來第四次工業革命,大概率是從對企業的影響開始。已故的商湯創始人湯曉鷗也曾表示:
並不存在 AI 這個行業,只有 AI+行業,強調 AI 需要與傳統產業合作,這種關係是結合與賦能,而不是顛覆,其價值在於幫助傳統產業提高生產效率,解放生產力。
湯曉鷗在一次演講中提到,「企業融資不是用來燒的,而是做偉大的事。」而商湯科技未來十年要做的「偉大的事」,將是幫助千行百業將 AIGC 落地。
作者:李超凡、莫崇宇