大模型挑戰手機發佈會報道:文心與豆包表現出色,GPT名不副實

臨近年末,各大手機品牌新機新機陸續發佈,一場接着一場的發佈會導致我們加班成了常態。疲憊之時小雷突然想到,或許我們可以用生成式AI撰寫一些信息量較多,無需過多解讀的文章,以緩解工作疲勞。

但在真正使用生成式AI幫助我們工作之前,自然要對比測試一下當前行業人氣比較高的幾款AI大模型,看看它們是否真的可以完成我們的工作。

考慮到現階段生成式AI不少可以免費使用,部分需付費使用,公平起見,小雷選擇了豆包、Kimi、訊飛星火三款免費AI大模型,以及文心一言可免費使用的文心3.5版本和免費版GPT-4o。測試流程方面,小雷準備了三重考驗,包括總結能力、文章撰寫能力,以及圖片生成能力。

閒話不多說,咱們直接進入正題。

數碼圈報告總結:只得皮毛,卻失骨肉

今天幾乎所有AI都加入了文檔總結能力,因而小雷感覺,只是對新手機的發佈會文檔進行總結,難度似乎有點低。於是,小雷找到了之前看過的小紅書《潮流數碼白皮書》PDF文件,該文件約有2萬字,深度剖析了小紅書平臺潮流數碼的現狀、發展趨勢,並給數碼家電品牌提出了相應的營銷建議。

分析一份大小超過30MB的文件,對於這幾款AI大模型都是挑戰。

豆包:數據紮實,深入內容剖析

作爲字節跳動開發的AI大模型,豆包擁有龐大的文章數據庫可用於訓練,也是當前小雷常用的AI助手之一。豆包將《潮流數碼白皮書》總結出核心觀點、小紅書數碼行業現狀、潮流數碼人羣與趨勢、營銷解決方案、未來展望五大板塊。

(圖源:豆包截圖)

其中最爲關鍵的營銷解決方案板塊,豆包還點出了應當抓住對應的時間節點進行營銷,這是其他所有AI大模型都未能做到的事。儘管仍遺失了不少信息,但豆包總結出的內容明顯優於其他幾款AI大模型。

訊飛星火:精煉簡潔,關鍵信息缺失

訊飛星火與豆包的風格完全不同,豆包的總結大而全,訊飛星火的總結則極爲精簡,全文加起來的字數都沒有豆包總結出的營銷解決方案一個板塊多。

(圖源:訊飛星火截圖)

字數多雖不一定好,但兩萬多字的文件,總結到五百多字,難免要捨棄大量內容。事實也正是如此,訊飛星火總結出的內容過於簡練,看不到太多有用信息,也沒有明確的分析,整體顯得過於籠統。

Kimi:車軲轆話多,大廠味濃濃?

第三個進行測試的是Kimi,對於《潮流數碼白皮書》,Kimi足足總結出了八大板塊,但每一個板塊的字數都不多,有點淺嘗輒止的意味。而且與訊飛星火相同,Kimi也沒有總結出任何數據,有點大廠打工人開會的感覺,主打一個“不說人話”。

(圖源:Kimi截圖)

嚴格來說,Kimi總結出的內容更像是一份大綱,可以根據其填補缺失的部分,但對於我們瞭解PDF的內容,沒有太多幫助。

文心3.5:滿屏小標題,有效信息少

如果說Kimi總結出的結果是一份大綱,那麼文心3.5總結出的內容則像是文章的標題和小標題,一句又一句的短語,有效信息卻不多,能夠總結出數碼行業人羣資產規模情況是少有亮點。

(圖源:文心一言截圖)

GPT-4o:我不支持解析PDF

前面幾款AI大模型無論總結的結果如何,但至少給出了一個答案,GPT-4o卻直接顯示無法查看和處理PDF文件。

(圖源:ChatGPT截圖)

ChatGPT幾乎是公認的最強LLM(大語言模型),卻無法查看和處理PDF文件,着實令小雷有些失望。

小結:車軲轆話來回轉,準確信息看不見

本以爲內容總結是AI大模型的基礎功能,豆包、訊飛星火、Kimi、文心3.5,以及GPT-4o的表現卻令小雷大失所望。豆包總結的內容有數據有分析,勉強能夠達到及格分,其他幾款AI大模型交上的答卷不說是0分,也沒高出太多。

AI大模型對於《潮流數碼白皮書》的總結,普遍是車軲轆話來回轉,鮮有話語能夠落到實處。例如營銷佈局部分,PDF統計了不同產品的最佳營銷節點,暑期畢業季打遊戲和旅遊人羣多,適合營銷臺式機和攝像機;女生喜歡拍照和音樂,38女王節則適合營銷數碼相機和藍牙耳機。在評測的幾款AI大模型中,只有豆包提到了一些相關內容,

(圖源:《潮流數碼白皮書》截圖)

在本輪評測中,豆包的表現無疑是最好的,訊飛星火、Kimi、文心3.5三款大模型,雖沒能總結出太多有價值的信息,但至少輸出了內容,表現可列爲第二檔,被寄予厚望的GPT-4o,表現則遜色不少。

當然,總結功能不過是開胃菜,對於其他文章的總結能力不足,不代表撰寫的文章的能力不行。

發佈會報道:GPT水土不服,國產大模型出色

爲了凸顯出編輯撰寫和AI生成的差距,小雷挑選了雷科技小夥伴撰寫iQOO Z9 Turbo+發佈會文章作爲對比。該手機發布至今已有一段時間,網絡上的相關文章不少,AI能夠輕鬆找到素材,相對而言更簡單一些。

首先看看雷科技小夥伴撰寫的資訊報道,該文章邏輯清晰,將iQOO Z9 Turbo+的硬件配置、遊戲幀率、產品亮點、價格完整羅列,並對其競爭力進行了分析。

(圖源:雷科技文章截圖)

受限於篇幅與時效性要求,雷科技小夥伴撰寫的這篇資訊報道並未深入解析與體驗產品,但消費者希望能夠了解到的信息,基本完整闡述。

撰寫文章是生成式AI的基礎功能之一,豆包、訊飛星火、文心3.5等AI大模型還提供寫作類型或風格可選,以幫助用戶快捷創作文章。

閒話不多說,咱們來看看AI大模型撰寫這一款產品的發佈會報道(由於iQOO Z9 Turbo+已發佈相當長一段時間,網絡上的資料已十分充沛,能不能寫好就看大模型的技術實力了。)

豆包:信息詳實,邏輯清晰,原創度超50%

豆包撰寫的文章比雷科技小夥伴所寫的內容更長,條理同樣清晰,外觀設計、性能、散熱、屏幕、電池、影像、價格每一部分都單獨列了出來,並加上了小標題。該文章不但配置細節相對豐富,而且沒有出現錯誤。值得一提的是,價格環節雷科技小夥伴報道稱iQOO Z9 Turbo+ 12GB+256GB首發價格爲2199元,但實際上如豆包撰寫文章所言,應該是2299元,首銷特價2199元。

小雷使用某自媒體工具對該文章進行了原創度檢測,查詢到該文章的原創度爲50.56%。一般來說,自媒體平臺會要求文章原創度在70%以上,但考慮到該文章爲資訊報道,內容包含了大量參數信息,原創度能夠達到50%左右,實際上已經不低了。就算是雷科技小夥伴自己寫的文章,該工具檢測顯示原創度也在50%左右。

(圖源:自媒體工具截圖)

豆包撰寫的發佈會報道,配置信息、價格、時間沒有錯漏,查重率能夠達到50%左右,是一篇合格的文章。不過文章段落之間的轉折略顯生硬,且沒有見解和分析,與雷科技小夥伴創作的內容有一些差距。

訊飛星火:文章簡練,信息紮實,但條理不夠清晰

與總結部分相同,訊飛星火大模型創作的文章依然較爲簡練,正文內容約700字,不到豆包撰寫文章的一半。不過這篇文章內容也足夠紮實,只是電池容量數據出現了錯漏,比真實容量低400mAh,而且文章條理性不如豆包撰寫的文章那麼清晰。

查重率方面,自媒體工具檢測顯示,訊飛星火文章原創值爲61.02%,比豆包撰寫的文章更高。有意思的是,這些AI大模型似乎格外喜歡“震撼”二字,訊飛星火擬定的標題也帶有這兩個字,並被自媒體工具檢測爲違禁詞。

站在編輯的角度,小雷認爲訊飛星火撰寫的文章較爲精煉,並不比豆包撰寫的文章差,而且原創度更高。可惜電池容量數據出現了小紕漏,如果使用訊飛星火寫文章,最好自己詳細檢查和對比參數數據,避免文中出現錯誤。

Kimi:錯誤信息較多,AI風過於濃烈

Kimi是小雷平時使用最多的AI助手,但這一次它太讓我失望了。Kimi所撰寫的iQOO Z9 Turbo+發佈會,沒有註明發佈會時間,開售時間錯誤,處理器、電池、快充功率、價格等數據,一項對的都沒有。連數據都錯誤連篇,其他語法、結構根本沒有看的必要了。

該文章的原創度達到了58.52%,倒是不算低。然而轉念一想,本應充滿參數的發佈會報道,從硬件配置到價格到處都是錯誤,原創度居然未能達到70%以上,顯然問題很嚴重。

毫無疑問,Kimi撰寫這篇文章不合格,發佈會報道最重要的硬件參數出現了太多錯誤,甚至在其基礎上大改,都不如自己重寫一篇報道。

文心3.5:交出高分作文,我願稱之爲最強

百度是當前國內圖文資訊平臺巨頭之一,用於訓練的數據同樣豐富。在前面三款AI大模型撰寫的文章中,豆包略勝一籌,文心3.5所撰寫的文章,在小雷看來比豆包還要強一些。

文心3.5創作的iQOO Z9 Turbo+發佈會報道全文不到1200字,沒有通過小標題分段,文章緊湊且數據沒有明顯錯誤,也點出了12GB+256GB限時特惠價格。文心3.5創作的內容亮點在於AI味沒有那麼濃,行文很像真人撰寫,除了言辭略顯軟文風格和沒有任何分析外,其他做方面都不錯。

原創度方面,該文章達到了57.77%,同樣優於豆包創作的文章。另外,文心3.5擬定的標題沒有“震撼”二字,自媒體工具也沒有檢測出任何可能存在違規情況的詞語。

作爲國內用戶數量最多的搜索引擎和頭部圖文資訊平臺,百度技術實力、訓練數據量領先絕大多數AI公司,文心3.5的表現也沒有辱沒百度,所撰寫的發佈會報道可以當作原創文章發佈。

GPT-4o: 內容極度敷衍,水土嚴重不服

互聯網一直流傳着一個說法,中國網民數量雖世界第一,但貢獻的信息只佔互聯網的不到1.5%。事實上,這是因爲該數據只統計了不包含中國大陸地區的互聯網信息,海外互聯網中文信息太少。正因如此,用於給ChatGPT訓練的數據也不多。

免費版GPT-4o撰寫iQOO Z9 Turbo+發佈會報道之時,就出現了水土不服的情況,數據錯亂不堪,而且內容字數不多,只有簡單的介紹,甚至不如Kimi撰寫的文章,完全沒有查重的意義。

小結:撰寫發佈會報道,AI已達科技編輯實習生水平

這幾款AI大模型的表現證明,儘管AI缺乏真正的邏輯推理能力,寫長文和分析類內容較爲吃力,但在信息量充足的情況下,創作發佈會報道已不是問題。小雷建議媒體老師參加發佈會不要發通稿了,至少可以用AI創作一番。

不過,AI撰寫的文章風格和邏輯性與編輯仍有差距,暫時無法代替專業編輯完成更多任務。像雷科技編輯參加發佈會,重點產品必須要輸出大幾千字的長文解讀,包括髮佈會基礎信息、高管發言解析、現場產品體驗、現場反饋觀察,以及深入產品對背後的技術、公司、品類和行業深入解析,這些是目前的AI做不到的。

AI大模型之間的差距也十分明顯,本輪測試中文心3.5和豆包表現出色,創作的內容行文通暢,也沒有明顯的數據錯誤,可並列第一梯隊。訊飛星火延續了精煉的風格,字數雖然不多,但該有的都有了,雖然有一些數據錯誤,但並不多,大多數數據依然準確,位列第二梯隊。

Kimi以長文本生成與解析能力著稱,不過似乎不太擅長撰寫文章,出現了較爲嚴重的數據錯誤,GPT-4o因水土不服,撰寫中文報道問題較爲嚴重,加錢升級至ChatGPT Plus才能享受到更好的服務,這兩款大模型在本輪測試中位列第三梯隊。

在日常工作中,AI大模型對於我們而言,除了幫忙檢查文章的錯別字、語病等問題,還有一項實用的功能——AI繪圖。因此,小雷特地加入了繪圖測試環節。

數碼圈文章配圖:偶爾能用,但提升空間較大

因擔心版權糾紛,雷科技小夥伴爲文章配圖時極其謹慎,但很多文章配圖較爲麻煩,因而小雷經常使用AI生成圖片。

最開始小雷本想使用AI生成一張iQOO Z9 Turbo+的圖7xsx.kirara-support-doctor.com片,結果所有AI大模型都不能準確生成指定機型,即便互聯網上已有不少該機型的圖片。小雷只好將限定語定爲“一個人捧着手機打遊戲”,突出使用手機的場景,淡化具體手機型號,用於文章封面。

(因不支持繪圖功能,Kimi不參與本輪測試。)

豆包:未能正確理解遊戲與手機

在前幾輪取得了優異成績的豆包,本輪測試卻有點離譜,似乎無法正確理解“手機”和“遊戲”,所繪製的圖,都是拿着遊戲手柄,而且手指存在不協調的情況。

豆包繪圖功能提供的選項較爲豐富,可選擇不同風格,小雷又用人像攝影風格試了一次,結果給出的圖片風格換了,但圖片中的人手中握着的依然是遊戲手柄或者畸形的手機。

在理解自然語言和繪圖方面,豆包的表現並不出色,但提供的繪圖後期處理功能爲其扳回一分。AI生成的圖片基本爲1:1比例,即便在描述中加了比例限定詞,生成的圖片還是1:1,不適合用作文章配圖和封面。豆包加入了區域重繪、擴圖、擦除等功能,可以對圖片進行一定程度的修改,例如小雷就使用擴圖功能,將1:1的圖片擴充至16:9,更適合用來做文章封面。

儘管有這些功能,本輪測試小雷依然無法給豆包打高分,畢竟識別自然語言並繪製出我們想要的圖纔是最重要的功能,後期修改有太多工具可以實現。

訊飛星火:正確生成圖片,自定義能力不足

在前幾輪的測試中,訊飛星火表現中規中矩,但本輪測試訊飛星火卻拿到了高分,所繪製的圖片接近我理想中的結果,最容易出錯的手指處也沒有太嚴重的不協調。

遺憾的是,訊飛繪畫大師智能體提供沒有提供創作風格可選,也沒有後期處理功能,以至於文章的比例不適合用於文章配圖,且未能突出“捧着手機打遊戲”的主題。如果想要將這張圖處理成封面,還需要其他應用的介入。

文心3.5:完全可用,“盛名之下無虛士”

與豆包、訊飛星火生成的圖片相比,文心3.5繪製圖片更符合小雷的預期。

首先,其他幾款圖片的手機都顯現出了背面,可背面結構較爲複雜,非常容易出錯,而且用戶能夠一眼看出圖片是不是文章提到的手機,文心3.5則突出了手機的正面,用戶難以分辨這是哪一款機型。

其次,訊飛星火生成的圖片重點落在了全景,文心3.5繪製的圖片則聚焦手機主體,突出了“捧着手機打遊戲”這一主題。唯一遺憾的是,手機屏幕沒有顯示遊戲畫面。

文心3.5同樣沒有提供風格選項和後期處理功能,期待文心3.5可以後續豐富一下繪圖功能,爲用戶文章配圖提供更多便利。

GPT-4o:機身、屏幕全亂套,繪圖如此拉胯?

AI繪製手機圖片時最大的問題在於背面的設計元素細節混亂,但GPT-4o給出的結果,比小雷預想中更離譜,因爲它將本該是手機背面的區域,繪製成了手機屏幕……

只能說,ChatGPT並不是萬能的,無論是撰寫文章還是製作圖片,都可能出現各種問題。GPT-4o本身也沒有提供後期處理功能和風格選擇,看來除了部分專業AI製圖軟件,如豆包一般提供圖片豐富風格選擇和後期功能的AI大模型並不多。

最後說一下圖片的分辨率,雷科技配圖對於圖片的清晰度和分辨率都有一定的要求,封面圖的要求就更高了。這四款大模型中,訊飛星火和GPT-4o繪製的圖片分辨率爲1024×1024,清晰度明顯較高,文心3.5繪製的圖片分辨率則爲769×768,分辨率最低,無法用作雷科技文章封面。

豆包生成的圖片原圖也是1024×1024,但可以使用擴圖和重繪功能進行修改,例如小雷將圖片擴圖爲16:9後,分辨率就變成了1820×1024。

小結:繪圖不如撰文成熟,改進空間都不小

繪圖功能是AI大模型的基礎功能之一,也是長期圍繞着AI大模型的難題,從結果來看,AI大模型細節方面依然有所欠缺,如豆包未能正確理解限定詞,GPT-4o將手機背面區域繪製成了屏幕等等。但我們也能看出AI的進步,曾被用於分辨AI和真人繪畫的手指部分,AI作圖的和諧性越來越高,很少再出現多一根或少一根手指的情況。

當我將訊飛星火繪製的圖片上傳至其他AI大模型,測試是否能夠調整爲16:9比例時,發現所有AI大模型都無法準確識別指令,訊飛星火更是稱圖片已是16:9比例,豆包則基於該圖片重繪了一張1:1的圖片,似乎所有AI大模型都無法準確識別圖片比例或難以根據指定比例繪圖,這點也急需改進。

(圖源:豆包AI截圖)

大多數AI大模型只提供繪圖功能,沒有相應的模板和後期處理功能,很難穩定爲文章繪製配圖和封面,這幾款AI大模型的繪圖功能仍有較大提升空間。

總結:AI入職科技媒體做編輯,未來可期?

經過三輪測試,小雷認爲,目前AI倘若“入職”任何一家科技媒體,恐怕都很難通過試用期,雖說部分工作偶爾可以達到實習生水平,但大體上距離一位合格的編輯還有較大差距。

一位合格的科技媒體編輯,至少需要以下能力:

現在看來,AI要做好其中任何一項工作都很難。

在這三輪測試中,最令小雷意想不到的是第一輪測試,總結PDF重點內容,理論上是最簡單的任務,可沒有一款AI大模型可以達到高分,普遍是車軲轆話來回轉。第二輪測試是平均表現最好的一輪,只有Kimi和GPT-4o出現了較爲嚴重的問題。

而第三輪測試中,訊飛星火和文心3.5表現較好,其他兩款繪製出的圖片都存在明顯缺陷。然而文心3.5繪製出的圖片分辨率太低,訊飛星火未能突出主體,只能算高分,卻拿不到滿分。

三輪測試下來,綜合表現最好的是文心3.5和豆包,其次則是訊飛星火,Kimi和GPT-4o則表現相對較差。當然,本次測試並不能代表文心一言和ChatGPT的全部實力,這兩款大模型都有付費版,掏錢才能享受更好的體驗。

總而言之,AI大模型已經擁有了撰寫發佈會文章的能力,但訊飛星火的數據錯誤表明,哪怕真的用AI大模型創作文章,也要有編輯加以審覈和整理,避免出現數據信息錯漏。而面對較長的文案,AI大模型給出的內容很可能會像總結出的文檔一樣,車軲轆話亂轉,卻說不到實處。

(圖源:豆包生成)

2022年底AI大模型才爆火,至今不過兩年時間,從最初一片嘲笑之聲,到現在越來越多人接受了AI大模型,並將其作爲提高工作效率的幫手,AI大模型的進步肉眼可見。如小雷就經常使用豆包AI生成圖片,用Kimi幫忙檢查文章。

兩年時間能取得如此驚人的進步,也讓小雷對AI更有信心。只是AI不具備真正的推理能力這一問題,可能會成爲阻礙AI功能發展的進步。

在《GSM-Symbolic: 理解大型語言模型數學推理的侷限性》論文中,研究人員稱AI大模型只能套用訓練數據的模式解決問題,一旦出現嚴重的數據污染,AI大模型回答問題的準確度就可能大幅下降。

至少以現在的眼光來看,AI大模型雖然可以不斷進步,但完全取代編輯撰寫文章仍是不可能的。唯有真正賦予AI推理能力,才能讓AI告別套用現有模式,用“思考”去解決問題。