廣州壁仞申請模型推理方法專利,能節省內存等
金融界2024年12月18日消息,國家知識產權局信息顯示,廣州壁仞集成電路有限公司、上海壁仞科技股份有限公司申請一項名爲“模型推理方法、裝置、電子設備及存儲介質”的專利,公開號 CN 119129750 A,申請日期爲 2024 年 9 月。
專利摘要顯示,本發明提供 一種模型推理方法、裝 置、電子設備及存儲介質,其中模型推理方法, 包括:響應於詞元稀疏 指令,從大模型的每層的鍵值緩存信息中分別獲取待丟棄詞 元每層的待丟棄詞元均是經過詞元稀疏處理後確定的對各 層各自的待丟棄詞元進行層間合併,並基於層間合併結果執行 模型推理操作。本發明既能在整個模型推理過程中同時實現節 省內存、加速attention計算和提高模型推理效果的目的,此外 對於硬件的影響主要體現在內存節省方面,也可以減少人工智 能芯片的內存或片上存儲,因此可直接支持現有的多數大模 型,也無需額外的訓練代價。
本文源自:金融界
作者:情報員