搜索引擎真要被替代了?實測Kimi、智譜、360最新AI搜索功能,它的表現最強

出品 | 搜狐科技

作者 | 樑昌均

運營編輯 | 王一晴

ChatGPT誕生之初,很多人認爲谷歌、百度等傳統搜索引擎會被顛覆。

如今來看,似乎有些高估。如果把它當做搜索工具,很多時候並不靠譜。

不過,隨着時間的推移,AI正在持續推動搜索新的變革。

最近OpenAI推出慢思考、強推理的o1模型,國內廠商開始嘗試讓搜索學會這種方法。

就在上週,大模型獨角獸月之暗面開始內測主打深度推理的Kimi探索版,一經推出就“崩”上熱搜。

從這周開始,該版本開始向全量用戶開放。

有觀點認爲,Kimi正在重新定義AI搜索,但這種玩法並不是獨一份。

智譜清言最近也推出類似的AI搜索智能體,360 AI搜索此前則上線了慢思考模式。它們均號稱,能分步驟深度推理,實現像人一樣去思考。

傳統的搜索引擎真的要被AI替代了嗎?我們就此評測了Kimi探索版、智譜AI搜索和360AI搜索慢思考功能,來看看誰的效果最好。

信息總結能力

問題1:特斯拉最近的發佈會,主要講了哪些內容?

這道題需要首先知道特斯拉最近的發佈會,然後進行總結。

Kimi探索版呈現出思考過程,列出特斯拉、發佈會等中英文關鍵詞。

通過閱讀15個網頁,Kimi知道特斯拉最近的發佈會是在今年10月11日舉辦,並總結了核心內容。

這些內容基本正確,且都有可追溯的信息源可供查詢印證。這些鏈接中有10個都是外文鏈接,包括特斯拉官網信息。

Kimi探索版還會進行自我反思,通過繼續閱讀3個網頁,又補充了一些新信息,包括髮佈會主題、感應充電、自動駕駛系統等更多細節。

智譜AI搜索能按照分析問題、查找資料、推理答案的步驟進行拆解。它基於15個網頁來源總結了答案,內容比較全面,且沒有明顯錯誤。

360AI搜索的慢思考模式則詳盡展示了模型的思考過程,涉及進入慢思考—意圖識別—生成慢思考思維鏈—搜索相關資料,以及多次反思、更新等15個步驟,完成慢思考過程,閱讀全網近9.16萬篇資料,並精選其中的 30篇,總結生成答案。

基於360此前和國內十多個主流大模型產品達成合作,這個過程中還先後調用了360智腦、豆包、通義千問三款大模型,耗時55秒,消耗4.29萬個大模型Token。

最終,360AI搜索生成了一份長達1000多字的內容。相較Kimi和智譜,內容最爲全面,且有更多的細節和增量信息,比如還提到了行業影響和麪臨的挑戰。

問題2:馬斯克提到明年會實現無人監督的完全自動駕駛,我想了解下他過去在這個目標上有多少次跳票,用表格列出具體時間。

上個問題是較新的新聞事件,信息相對容易搜索。

對這個跨度時間更長的問題,信息搜索和總結難度有所提升,且需要用表格呈現。

Kimi探索版只閱讀了7個網頁,通過分步驟搜索跳票歷史以及整理後,用表格列出了從2015年到今年的跳票情況,內容最爲全面,但部分內容跟完全自動駕駛並不相關。

智譜AI搜索則基於15個搜索來源,閱讀了5個網頁,生成表格時出現了亂碼,統計了5次跳票情況,但缺乏信息來源,無法進行相應查證。

360AI搜索慢思考模式再次通過15個步驟展示了思考過程, 並調用三個大模型,耗時46秒,消耗3.2萬個大模型Token。

通過閱讀全網超4.63萬篇相關資料,精選其中的 27篇總結成答案,最後用表格列出了4次跳票。

從內容完整度來看,Kimi依然更勝一籌。

問題3:諾貝爾物理學獎得主傑弗裡·辛頓(Geoffrey Hinton)和Deepmind CEO、諾貝爾化學獎得主戴米斯·哈薩比斯(Demis Hassabis),誰的年齡更大?他們之間有什麼關係?

前兩個問題都是對單個事實的搜索總結,這個問題則涉及多個事實或人物之間的關聯信息。Kimi探索版首先對問題進行了識別,知道要回答誰的年齡大,需要搜索兩人出生日期。

通過閱讀87個網頁,Kimi給出兩人的出生時間,最後得出辛頓大28歲的正確結論。對於兩人的關係,Kimi提到三個方面,整體比較全面,內容也無硬傷。

智譜AI搜索在對問題分解後,基於30個來源列出兩人出生日期,得出正確結論。但對兩人關係,僅停留在雙方對AI領域的研究和貢獻方面,未有更多內容,或受搜索來源較少影響。

360AI搜索經過9個步驟,閱讀全網5.47萬篇相關資料,精選 14篇得出答案。兩人出生日期正確,得出辛頓年齡更大的結論,並對兩人生平和成就進行了介紹,提到他們的公司都曾被谷歌收購,對AI發展都做出了重要貢獻,內容偏概述,缺乏細節。

總結:從前述測評來看,Kimi探索版表現整體較好,而360AI搜索慢思考模式則在呈現步驟方面更加詳盡,可以讓人清晰看到模型思考的過程,並能調用多個大模型進行驗證或反思。

它們通過意圖識別+關鍵詞搜素+分步驟解析總結的能力,運用思維鏈,通過對問題的拆解,一定程度減少幻覺,提高了內容準確率,相比搜索引擎直接呈現出網頁可能更加好用了。

邏輯推理能力

問題1:如果昨天是明天的話就好了,那麼今天就是週五了。請問:實際上,句中的今天是周幾?

Kimi意識到這是一個涉及時間邏輯推理的問題,閱讀了27個網頁,通過7個過程,利用反推、設定變量、假設等方式,最終得出正確答案。

360AI搜索慢思考模式則直接進行了意圖識別,表示可以直接回答,得出正確答案,但分析的過程似乎並不是特別清晰。

智譜AI搜索則直接進行回答,經過簡單分析後並未得出正確結果。

問題2:甲、乙、丙、丁約定上午10時在公園門口集合。見面後,甲說:“我提前了6分鐘,乙是正點到的。”乙說:“我提前了4分鐘,丙比我晚到2分鐘。”丙說:“我提前了3分鐘,丁提前了2分鐘。”丁說:“我還以爲我遲到了1分鐘呢,其實我到後1分鐘才聽到收音機報北京時間10時整。”根據以上談話分析,這4個人中,誰的表最快,快多少分鐘?

我們繼續上難度!對這個邏輯關係更爲複雜的問題,需要更高的閱讀理解和推理能力。該題比較合理的解法是,從丁開始逐次倒推出每個人實際到達時間和到達時他們手錶顯示的時間,從而計算時間差,最終得出答案(正確答案是甲的表最快,快了4分鐘)。

這道題全軍覆沒。Kimi探索版閱讀了170個網頁,提出要分析每個人到達的時間和表顯示的時間,然後計算時間差,解題思路是對的。但在分析過程中出現了邏輯混亂,推導順序不對,雖然答出甲的表最快,但時間錯誤。

360AI搜索慢思考模式和智譜AI搜索均直接進行了回答,但沒有找到正確的解題思路,最終無法得出正確的結論。

問題3:有若干只雞和兔在同個籠子裡,從上面數,有三十五個頭;從下面數,有九十四隻腳。求籠中各有幾隻雞和兔?

這道題全部答對,均通過列方程的方式解答。Kimi探索版搜索了27個網頁,並對二元一次方程代入法的解答過程進行了詳細分解,像極了小學生在答題。

智譜AI搜索和360AI搜索同樣是直接回答,但在方程求解過程中,均採用生成代碼的方法解答,最後也得到正確結果。這對不會編程的人來說形成了一定門檻,還是Kimi更接地氣。

問題4:甲乙兩人各有四張卡片,每張卡片上標有一個數字,甲的卡片上分別標有數字1,3,5,7,乙的卡片上分別標有數字2,4,6,8,兩人進行四輪比賽,在每輪比賽中,兩人各自從自己持有的卡片中隨機選一張,並比較所選卡片上數字的大小,數字大的人得1分,數字小的人得0分,然後各自棄置此輪所選的卡片(棄置的卡片在此後的輪次中不能使用)。則四輪比賽後,甲的總得分不小於2的概率是多少?

再上難度,這道今年高考數學題(新課標I卷)涉及統計和概率,先看結論:Kimi結果答對,智譜和360均回答錯誤。

但細看Kimi探索版的分析過程,其僅說了主要的解題思路和方法,感覺像是“蒙”出正確答案,可能是搜到相同題目而直接“借鑑”了結果,其結論所在來源正是相同的一道題目。

360AI搜索在經過一番分析和運行代碼後,得出錯誤答案。智譜AI搜索則更加簡單粗暴,直接生成代碼來解答,也未得出正確答案。

總結:這三款產品在邏輯推理方面呈現出明顯的能力差異。對相對簡單的邏輯推理問題,Kimi探索版基本都能應對,更接近人的思考模式(如解答雞兔同籠)。但對相對複雜的邏輯推理任務,表現均不佳,可能並未像o1模型在數學等複雜任務上有所強化。

結語

從這次評測來看,這三款主打多步驟深度推理的AI搜索產品,依然難以應對複雜的邏輯推理,但能基本滿足信息搜索總結的需求,傳統的搜索引擎可能真的危險了。

這其中關鍵是把o1模型的思維鏈用到了搜索場景,讓模型有了更多思考,從而減少了幻覺。雖然響應速度有所降低,但提高了內容準確性,而這正是搜索最核心的需求。

這也與豐富的信源有關。Kimi探索版一次性能讀超過500個頁面,是普通版的10倍,智譜AI搜索也能讀上百個網頁。

Kimi探索版還會根據對問題的意圖識別,自主判斷是否生成英文的關鍵詞搜索,因此不少問題會有外文鏈接,甚至是第一信源。月之暗面強調,不會幫助用戶獲取國內無法訪問的信息。

同時,與AI自我反思的能力離不開。比如,Kimi探索版自我反思補充會在兩種情況下出現,一種是在分析答案後發現了更多信息,補充進來使答案更完善;另一種情況是分析答案後發現了衝突信息,補充進來提供更多維度的信息參考。

360AI搜索慢思考過程也會用大模型進行反思,甚至會多次反思,這有助於提高信息準確率。

目前,Kimi探索版逐漸向所有用戶開放,每日限用5次,360AI搜索慢思考和智譜AI搜索可無限量使用。隨着更多用戶使用,反饋過程會變成強化學習的數據,這會讓模型越來越強。

業內不少觀點認爲,採用思維鏈+強化學習的o1模型爲大模型的發展指明瞭一個探索的方向。現在,思維鏈已在搜索領域落地,AI搜索持續演化。