☰

字節跳動再掀大模型價格戰

掀起通用大模型價格戰後，字節跳動又要把多模態大模型的價格打下來。

12月18日，在火山引擎Force大會上，字節跳動正式發佈豆包視覺理解模型，同時公佈其售價爲千tokens輸入0.003元，比行業平均價格便宜85％，相當於一元錢就可處理284張720P的圖片。

這意味着，字節跳動在多模態大模型領域再次複製其在通用大模型領域大幅降價的打法。今年5月，該公司正式對外發布豆包大模型，並把價格降低了一個數量級，引發了阿里、百度等多家廠商大模型的降價潮。

火山引擎總裁譚待此前表示，降低成本是推動大模型快進到“價值創造階段”的一個關鍵因素。

半年過去，豆包通用大模型在市場上的表現一定程度上驗證了譚待的判斷。字節跳動對外公佈的數據顯示，截至12月中旬，豆包通用模型的日均tokens使用量已超過4萬億，較七個月前首次發佈時增長了33倍。

大模型應用正在向各行各業加速滲透。據界面新聞了解，豆包大模型已經與八成主流汽車品牌合作，並接入到多家手機、PC等智能終端，覆蓋終端設備約3億臺，來自智能終端的豆包大模型調用量在半年時間內增長100倍。最近3個月，豆包大模型在信息處理場景的調用量增長了39倍，客服與銷售場景增長16倍，硬件終端場景增長13倍，AI工具場景增長9倍，學習教育等場景也有大幅增長。

在此次發佈會上，譚待再次強調豆包大模型市場份額的爆發，得益於火山引擎“更強模型、更低成本、更易落地”的發展理念。

最新發布的豆包視覺理解模型大幅降價也基於同樣的邏輯，而字節跳動在多模態大模型上的野心還不止於此。

爭奪更多有AIGC需求的客戶

字節跳動方面稱，豆包視覺理解模型不僅能精準識別視覺內容，還具備出色的理解和推理能力，可根據圖像信息進行復雜的邏輯計算，完成分析圖表、處理代碼、解答學科問題等任務。此外，該模型有着細膩的視覺描述和創作能力。

例如，其可以一眼識別動物的影子，並推斷出這是什麼動物，也可識別地標建築、生活中不太熟悉的物品，並給出科普信息，同時還可識別出圖片中被全選位置的物體。

豆包戰略研究負責人周昊表示，豆包一直試圖讓用戶的輸入更快更方便，非常注重多模態的輸入和打磨，包括語音、視覺等能力，這些模型都已通過火山引擎開放給企業客戶。

根據譚待的判斷，豆包視覺理解模型在判卷指導、作文批改、兒童陪伴等教育場景，目的地推薦、外文菜單識別、著名建築識別及講解等旅遊場景，以及拍照找同款、商品搭配建議、廣告種草文案等電商營銷場景有較大的空間。目前，火山引擎已邀請數百家企業測試該模型。

和豆包視覺理解模型一同發佈的，還有豆包3D生成模型。該模型與火山引擎數字孿生平臺veOmniverse結合使用，據稱可高效完成智能訓練、數據合成和數字資產製作，成爲一套支持AIGC創作的物理世界仿真模擬器。

界面新聞記者在現場體驗了用豆包3D生成模型生成一張桌子，輸入相關參數，模型就可以生成相應的3D圖像，還可以根據需求變換桌子的材質。在裝修設計、遊戲、元宇宙等領域，該模型都可以很好地輔助設計人員進行創作。

這也是字節跳動在多模態大模型領域更大的野心所在。當多模態模型的技術能力更強、價格更便宜，其將會在更多場景以及更多對AIGC有需求的企業中使用。

同時，火山引擎升級了火山方舟、釦子和HiAgent三款平臺產品，幫助企業構建自身的AI能力中心，提升開發AI應用的效率。其中，火山方舟發佈了大模型記憶方案，並推出prefix cache和session cache API，以降低延遲和成本。火山方舟還帶來全域AI搜索，具備場景化搜索推薦一體化、企業私域信息整合等服務。

批量更新大模型

新模型發佈的同時，豆包此前發佈的多款大模型也迎來更新。

其中，豆包通用模型pro已全面對齊GPT-4o，使用價格僅爲後者的1/8；音樂模型從生成60秒的簡單結構，升級到生成3分鐘的完整作品；文生圖模型2.1版本，首次實現精準生成漢字和一句話P圖的產品化能力。

明年春季，字節跳動還將發佈具備更長視頻生成能力的豆包視頻生成模型1.5版，豆包端到端實時語音模型也將很快上線，從而解鎖多角色演繹、方言轉換等新能力。

相比於市場同類產品，豆包系列大模型發佈的時間並不算早，但一直保持較快速度的更新。豆包系列大模型最新的能力也通過即夢AI和豆包App開放給了普通用戶使用。

本月初，豆包網頁版和豆包App上線了圖片理解功能。測試顯示，該功能可識別圖片中包含的元素和基本特徵。同時，用戶還可通過該功能詢問某景點所處的位置或某個角色出自哪部影視作品。

基於字節自研的豆包文生圖模型、豆包視頻生成模型，即夢AI近期上線了3款視頻生成模型，並接入了最新的豆包文生圖模型。測試顯示，用戶可輸入一句話一鍵生成海報，海報中文字生成的準確率也大幅提升，讓圖片創作編輯更加靈活。

即夢AI隸屬於字節跳動旗下剪映業務，於2024年5月上線，定位是AI內容平臺，支持通過自然語言及圖片輸入，生成高質量的圖像及視頻。

此前，界面新聞曾獨家報道，字節跳動旗下創作工具剪映和CapCut，在2024年實現了超過三位數收入增長，總收入正接近百億元人民幣。同時，剪映和CapCut的全球月活用戶，也已經超過8億。

目前，字節跳動計劃提升即夢的產品優先級，嘗試用新的路徑打造AI時代的“抖音”。這也意味着，字節跳動對大模型在消費端產品落地還有更高的預期。

字節跳動再掀大模型價格戰

相關資訊