☰

火山引擎VeDI：A/B實驗如何應用在APP推薦系統中？

在移動互聯網飛速發展的時代，用戶規模和網絡信息量呈現出爆炸式增長，信息過載加大了用戶選擇的難度，這樣的背景下，推薦系統應運而生，爲用戶提供個性化的內容推薦。推薦系統在不斷迭代中，其算法、策略、特徵、功能和用戶界面時常得到更新和優化，其中推薦算法的調整尤爲關鍵。然而，由於深度學習模型的廣泛應用，推薦算法調整後的用戶體驗和效果難以通過經驗直接判斷。

爲了更準確地評估和優化推薦系統，A/B實驗成爲了一個不可或缺的工具。A/B實驗能夠量化各項指標的變化，從而對推薦系統的效果進行科學評估，併爲後續的優化提供數據支持。本文將以火山引擎數智平臺VeDI旗下的A/B測試平臺（DataTester）爲例，介紹字節跳動如何使用其能力，持續實現推薦系統的精準優化。

推薦系統的本質是連接內容和用戶，它構成了<內容，推薦系統，用戶> 的三元組，A/B實驗也圍繞此三元組展開。下方介紹了推薦系統三元組中，最常使用A/B測試的場景集合，企業可對應到自己的推薦系統中作爲參考。

在字節跳動的推薦系統實踐中，A/B實驗在內容側可以進行內容池優化、內容打標優化、視頻封面模型的優化；用戶側（指產品的用戶應用方面）可以通過A/B實驗實現功能優化、性能優化、UI改進等；而在推薦系統方面，可以使用A/B實驗的維度更多，例如多路召回優化、粗排和精排模型迭代升級優化、模型多目標融合優化、重排多樣性/興趣探索優化、廣告收入優化等等，可以說，在推薦系統中，萬物皆可A/B實驗。

需要指出的是，在進行推薦系統內容側A/B實驗時，例如信息流產品可能會做作者發佈視頻獎勵、視頻清晰度調整等，改變的是內容側的屬性，但業務中通常觀察的是大盤用戶側的指標。在進行這類實驗時，注意轉化爲用戶側實驗並輔助觀測內容側指標來評估，權衡用戶側和內容側的綜合收益後再決策是否上線。以視頻帶貨推薦爲例，商家分潤規則調整僅對實驗用戶生效，通過對比實驗組與對照組的指標差異評估對大盤的影響的同時，可以創建並觀察商家入駐率等內容側指標的變化。在大盤收入指標不變、商家入駐率指標有提升，甚至大盤收入指標微跌、商家入駐率顯著提升的情況下，都可以發佈上線。

另一個注意點是，A/B實驗上線後，業務會頻繁地查看分析實驗指標。有的實驗在開啓後前幾天可能出現指標下跌，這種情況下不建議立即關閉實驗，因爲在實際實踐中，遇到過很多起初指標下跌、後續慢慢回漲的情況，比如在一些信息流平臺的內容的多樣性策略實驗中，當增強興趣探索後，短期可能會因爲探索而出現用戶不感興趣的內容變多，導致消費時長下跌；但從長期來看。探索到更多用戶興趣後，用戶黏性更強，用戶消費時長也會慢慢回漲，且更有益於平臺生態。因此在面對實驗開始指標下跌的情況，一般會建議繼續實驗至少一週以上，覆蓋觀察一個完整週後再進行評估會更加準確。

在查看指標時，企業可以多關注實驗指標下鑽分析結果，例如關注不同性別、不同年齡層用戶的指標變化，有的產品也會關注不同活躍度用戶、特別是新用戶和低活用戶的指標變化趨勢，因爲這類用戶更決定了產品未來的增長。在DataTester中，可以藉助用戶屬性過濾功能，查看指標的下鑽分析數據。

火山引擎DataTester作爲火山引擎數智平臺VeDI旗下的核心產品，源於字節跳動長期的技術和業務沉澱。目前，DataTester已經服務了包括美的、華泰證券、博西家電、樂刻健身等知名品牌在內的上百家企業。這些企業通過不斷進行的A/B測試和優化迭代，提升產品與服務質量，從而實現業務持續的優化和增長。

火山引擎VeDI：A/B實驗如何應用在APP推薦系統中？

相關資訊