火山引擎VeDI:A/B實驗如何應用在APP推薦系統中?

在移動互聯網飛速發展的時代,用戶規模和網絡信息量呈現出爆炸式增長,信息過載加大了用戶選擇的難度,這樣的背景下,推薦系統應運而生,爲用戶提供個性化的內容推薦。推薦系統在不斷迭代中,其算法、策略、特徵、功能和用戶界面時常得到更新和優化,其中推薦算法的調整尤爲關鍵。然而,由於深度學習模型的廣泛應用,推薦算法調整後的用戶體驗和效果難以通過經驗直接判斷。

爲了更準確地評估和優化推薦系統,A/B實驗成爲了一個不可或缺的工具。A/B實驗能夠量化各項指標的變化,從而對推薦系統的效果進行科學評估,併爲後續的優化提供數據支持。本文將以火山引擎數智平臺VeDI旗下的A/B測試平臺(DataTester)爲例,介紹字節跳動如何使用其能力,持續實現推薦系統的精準優化。

推薦系統的本質是連接內容和用戶,它構成了<內容,推薦系統,用戶> 的三元組,A/B實驗也圍繞此三元組展開。下方介紹了推薦系統三元組中,最常使用A/B測試的場景集合,企業可對應到自己的推薦系統中作爲參考。

在字節跳動的推薦系統實踐中,A/B實驗在內容側可以進行內容池優化、內容打標優化、視頻封面模型的優化;用戶側(指產品的用戶應用方面)可以通過A/B實驗實現功能優化、性能優化、UI改進等;而在推薦系統方面,可以使用A/B實驗的維度更多,例如多路召回優化、粗排和精排模型迭代升級優化、模型多目標融合優化、重排多樣性/興趣探索優化、廣告收入優化等等,可以說,在推薦系統中,萬物皆可A/B實驗。

需要指出的是,在進行推薦系統內容側A/B實驗時,例如信息流產品可能會做作者發佈視頻獎勵、視頻清晰度調整等,改變的是內容側的屬性,但業務中通常觀察的是大盤用戶側的指標。在進行這類實驗時,注意轉化爲用戶側實驗並輔助觀測內容側指標來評估,權衡用戶側和內容側的綜合收益後再決策是否上線。以視頻帶貨推薦爲例,商家分潤規則調整僅對實驗用戶生效,通過對比實驗組與對照組的指標差異評估對大盤的影響的同時,可以創建並觀察商家入駐率等內容側指標的變化。在大盤收入指標不變、商家入駐率指標有提升,甚至大盤收入指標微跌、商家入駐率顯著提升的情況下,都可以發佈上線。

另一個注意點是,A/B實驗上線後,業務會頻繁地查看分析實驗指標。有的實驗在開啓後前幾天可能出現指標下跌,這種情況下不建議立即關閉實驗,因爲在實際實踐中,遇到過很多起初指標下跌、後續慢慢回漲的情況,比如在一些信息流平臺的內容的多樣性策略實驗中,當增強興趣探索後,短期可能會因爲探索而出現用戶不感興趣的內容變多,導致消費時長下跌;但從長期來看。探索到更多用戶興趣後,用戶黏性更強,用戶消費時長也會慢慢回漲,且更有益於平臺生態。因此在面對實驗開始指標下跌的情況,一般會建議繼續實驗至少一週以上,覆蓋觀察一個完整週後再進行評估會更加準確。

在查看指標時,企業可以多關注實驗指標下鑽分析結果,例如關注不同性別、不同年齡層用戶的指標變化,有的產品也會關注不同活躍度用戶、特別是新用戶和低活用戶的指標變化趨勢,因爲這類用戶更決定了產品未來的增長。在DataTester中,可以藉助用戶屬性過濾功能,查看指標的下鑽分析數據。

火山引擎DataTester作爲火山引擎數智平臺VeDI旗下的核心產品,源於字節跳動長期的技術和業務沉澱。目前,DataTester已經服務了包括美的、華泰證券、博西家電、樂刻健身等知名品牌在內的上百家企業。這些企業通過不斷進行的A/B測試和優化迭代,提升產品與服務質量,從而實現業務持續的優化和增長。