☰

大模型挑戰手機發佈會報道：文心與豆包表現出色，GPT名不副實

臨近年末，各大手機品牌新機新機陸續發佈，一場接着一場的發佈會導致我們加班成了常態。疲憊之時小雷突然想到，或許我們可以用生成式AI撰寫一些信息量較多，無需過多解讀的文章，以緩解工作疲勞。

但在真正使用生成式AI幫助我們工作之前，自然要對比測試一下當前行業人氣比較高的幾款AI大模型，看看它們是否真的可以完成我們的工作。

考慮到現階段生成式AI不少可以免費使用，部分需付費使用，公平起見，小雷選擇了豆包、Kimi、訊飛星火三款免費AI大模型，以及文心一言可免費使用的文心3.5版本和免費版GPT-4o。測試流程方面，小雷準備了三重考驗，包括總結能力、文章撰寫能力，以及圖片生成能力。

閒話不多說，咱們直接進入正題。

數碼圈報告總結：只得皮毛，卻失骨肉

今天幾乎所有AI都加入了文檔總結能力，因而小雷感覺，只是對新手機的發佈會文檔進行總結，難度似乎有點低。於是，小雷找到了之前看過的小紅書《潮流數碼白皮書》PDF文件，該文件約有2萬字，深度剖析了小紅書平臺潮流數碼的現狀、發展趨勢，並給數碼家電品牌提出了相應的營銷建議。

分析一份大小超過30MB的文件，對於這幾款AI大模型都是挑戰。

豆包：數據紮實，深入內容剖析

作爲字節跳動開發的AI大模型，豆包擁有龐大的文章數據庫可用於訓練，也是當前小雷常用的AI助手之一。豆包將《潮流數碼白皮書》總結出核心觀點、小紅書數碼行業現狀、潮流數碼人羣與趨勢、營銷解決方案、未來展望五大板塊。

（圖源：豆包截圖）

其中最爲關鍵的營銷解決方案板塊，豆包還點出了應當抓住對應的時間節點進行營銷，這是其他所有AI大模型都未能做到的事。儘管仍遺失了不少信息，但豆包總結出的內容明顯優於其他幾款AI大模型。

訊飛星火：精煉簡潔，關鍵信息缺失

訊飛星火與豆包的風格完全不同，豆包的總結大而全，訊飛星火的總結則極爲精簡，全文加起來的字數都沒有豆包總結出的營銷解決方案一個板塊多。

（圖源：訊飛星火截圖）

字數多雖不一定好，但兩萬多字的文件，總結到五百多字，難免要捨棄大量內容。事實也正是如此，訊飛星火總結出的內容過於簡練，看不到太多有用信息，也沒有明確的分析，整體顯得過於籠統。

Kimi：車軲轆話多，大廠味濃濃？

第三個進行測試的是Kimi，對於《潮流數碼白皮書》，Kimi足足總結出了八大板塊，但每一個板塊的字數都不多，有點淺嘗輒止的意味。而且與訊飛星火相同，Kimi也沒有總結出任何數據，有點大廠打工人開會的感覺，主打一個“不說人話”。

（圖源：Kimi截圖）

嚴格來說，Kimi總結出的內容更像是一份大綱，可以根據其填補缺失的部分，但對於我們瞭解PDF的內容，沒有太多幫助。

文心3.5：滿屏小標題，有效信息少

如果說Kimi總結出的結果是一份大綱，那麼文心3.5總結出的內容則像是文章的標題和小標題，一句又一句的短語，有效信息卻不多，能夠總結出數碼行業人羣資產規模情況是少有亮點。

（圖源：文心一言截圖）

GPT-4o：我不支持解析PDF

前面幾款AI大模型無論總結的結果如何，但至少給出了一個答案，GPT-4o卻直接顯示無法查看和處理PDF文件。

（圖源：ChatGPT截圖）

ChatGPT幾乎是公認的最強LLM（大語言模型），卻無法查看和處理PDF文件，着實令小雷有些失望。

小結：車軲轆話來回轉，準確信息看不見

本以爲內容總結是AI大模型的基礎功能，豆包、訊飛星火、Kimi、文心3.5，以及GPT-4o的表現卻令小雷大失所望。豆包總結的內容有數據有分析，勉強能夠達到及格分，其他幾款AI大模型交上的答卷不說是0分，也沒高出太多。

AI大模型對於《潮流數碼白皮書》的總結，普遍是車軲轆話來回轉，鮮有話語能夠落到實處。例如營銷佈局部分，PDF統計了不同產品的最佳營銷節點，暑期畢業季打遊戲和旅遊人羣多，適合營銷臺式機和攝像機；女生喜歡拍照和音樂，38女王節則適合營銷數碼相機和藍牙耳機。在評測的幾款AI大模型中，只有豆包提到了一些相關內容，

（圖源：《潮流數碼白皮書》截圖）

在本輪評測中，豆包的表現無疑是最好的，訊飛星火、Kimi、文心3.5三款大模型，雖沒能總結出太多有價值的信息，但至少輸出了內容，表現可列爲第二檔，被寄予厚望的GPT-4o，表現則遜色不少。

當然，總結功能不過是開胃菜，對於其他文章的總結能力不足，不代表撰寫的文章的能力不行。

發佈會報道：GPT水土不服，國產大模型出色

爲了凸顯出編輯撰寫和AI生成的差距，小雷挑選了雷科技小夥伴撰寫iQOO Z9 Turbo+發佈會文章作爲對比。該手機發布至今已有一段時間，網絡上的相關文章不少，AI能夠輕鬆找到素材，相對而言更簡單一些。

首先看看雷科技小夥伴撰寫的資訊報道，該文章邏輯清晰，將iQOO Z9 Turbo+的硬件配置、遊戲幀率、產品亮點、價格完整羅列，並對其競爭力進行了分析。

（圖源：雷科技文章截圖）

受限於篇幅與時效性要求，雷科技小夥伴撰寫的這篇資訊報道並未深入解析與體驗產品，但消費者希望能夠了解到的信息，基本完整闡述。

撰寫文章是生成式AI的基礎功能之一，豆包、訊飛星火、文心3.5等AI大模型還提供寫作類型或風格可選，以幫助用戶快捷創作文章。

閒話不多說，咱們來看看AI大模型撰寫這一款產品的發佈會報道（由於iQOO Z9 Turbo+已發佈相當長一段時間，網絡上的資料已十分充沛，能不能寫好就看大模型的技術實力了。）

豆包：信息詳實，邏輯清晰，原創度超50%

豆包撰寫的文章比雷科技小夥伴所寫的內容更長，條理同樣清晰，外觀設計、性能、散熱、屏幕、電池、影像、價格每一部分都單獨列了出來，並加上了小標題。該文章不但配置細節相對豐富，而且沒有出現錯誤。值得一提的是，價格環節雷科技小夥伴報道稱iQOO Z9 Turbo+ 12GB+256GB首發價格爲2199元，但實際上如豆包撰寫文章所言，應該是2299元，首銷特價2199元。

小雷使用某自媒體工具對該文章進行了原創度檢測，查詢到該文章的原創度爲50.56%。一般來說，自媒體平臺會要求文章原創度在70%以上，但考慮到該文章爲資訊報道，內容包含了大量參數信息，原創度能夠達到50%左右，實際上已經不低了。就算是雷科技小夥伴自己寫的文章，該工具檢測顯示原創度也在50%左右。

（圖源：自媒體工具截圖）

豆包撰寫的發佈會報道，配置信息、價格、時間沒有錯漏，查重率能夠達到50%左右，是一篇合格的文章。不過文章段落之間的轉折略顯生硬，且沒有見解和分析，與雷科技小夥伴創作的內容有一些差距。

訊飛星火：文章簡練，信息紮實，但條理不夠清晰

與總結部分相同，訊飛星火大模型創作的文章依然較爲簡練，正文內容約700字，不到豆包撰寫文章的一半。不過這篇文章內容也足夠紮實，只是電池容量數據出現了錯漏，比真實容量低400mAh，而且文章條理性不如豆包撰寫的文章那麼清晰。

查重率方面，自媒體工具檢測顯示，訊飛星火文章原創值爲61.02%，比豆包撰寫的文章更高。有意思的是，這些AI大模型似乎格外喜歡“震撼”二字，訊飛星火擬定的標題也帶有這兩個字，並被自媒體工具檢測爲違禁詞。

站在編輯的角度，小雷認爲訊飛星火撰寫的文章較爲精煉，並不比豆包撰寫的文章差，而且原創度更高。可惜電池容量數據出現了小紕漏，如果使用訊飛星火寫文章，最好自己詳細檢查和對比參數數據，避免文中出現錯誤。

Kimi：錯誤信息較多，AI風過於濃烈

Kimi是小雷平時使用最多的AI助手，但這一次它太讓我失望了。Kimi所撰寫的iQOO Z9 Turbo+發佈會，沒有註明發佈會時間，開售時間錯誤，處理器、電池、快充功率、價格等數據，一項對的都沒有。連數據都錯誤連篇，其他語法、結構根本沒有看的必要了。

該文章的原創度達到了58.52%，倒是不算低。然而轉念一想，本應充滿參數的發佈會報道，從硬件配置到價格到處都是錯誤，原創度居然未能達到70%以上，顯然問題很嚴重。

毫無疑問，Kimi撰寫這篇文章不合格，發佈會報道最重要的硬件參數出現了太多錯誤，甚至在其基礎上大改，都不如自己重寫一篇報道。

文心3.5：交出高分作文，我願稱之爲最強

百度是當前國內圖文資訊平臺巨頭之一，用於訓練的數據同樣豐富。在前面三款AI大模型撰寫的文章中，豆包略勝一籌，文心3.5所撰寫的文章，在小雷看來比豆包還要強一些。

文心3.5創作的iQOO Z9 Turbo+發佈會報道全文不到1200字，沒有通過小標題分段，文章緊湊且數據沒有明顯錯誤，也點出了12GB+256GB限時特惠價格。文心3.5創作的內容亮點在於AI味沒有那麼濃，行文很像真人撰寫，除了言辭略顯軟文風格和沒有任何分析外，其他做方面都不錯。

原創度方面，該文章達到了57.77%，同樣優於豆包創作的文章。另外，文心3.5擬定的標題沒有“震撼”二字，自媒體工具也沒有檢測出任何可能存在違規情況的詞語。

作爲國內用戶數量最多的搜索引擎和頭部圖文資訊平臺，百度技術實力、訓練數據量領先絕大多數AI公司，文心3.5的表現也沒有辱沒百度，所撰寫的發佈會報道可以當作原創文章發佈。

GPT-4o：內容極度敷衍，水土嚴重不服

互聯網一直流傳着一個說法，中國網民數量雖世界第一，但貢獻的信息只佔互聯網的不到1.5%。事實上，這是因爲該數據只統計了不包含中國大陸地區的互聯網信息，海外互聯網中文信息太少。正因如此，用於給ChatGPT訓練的數據也不多。

免費版GPT-4o撰寫iQOO Z9 Turbo+發佈會報道之時，就出現了水土不服的情況，數據錯亂不堪，而且內容字數不多，只有簡單的介紹，甚至不如Kimi撰寫的文章，完全沒有查重的意義。

小結：撰寫發佈會報道，AI已達科技編輯實習生水平

這幾款AI大模型的表現證明，儘管AI缺乏真正的邏輯推理能力，寫長文和分析類內容較爲吃力，但在信息量充足的情況下，創作發佈會報道已不是問題。小雷建議媒體老師參加發佈會不要發通稿了，至少可以用AI創作一番。

不過，AI撰寫的文章風格和邏輯性與編輯仍有差距，暫時無法代替專業編輯完成更多任務。像雷科技編輯參加發佈會，重點產品必須要輸出大幾千字的長文解讀，包括髮佈會基礎信息、高管發言解析、現場產品體驗、現場反饋觀察，以及深入產品對背後的技術、公司、品類和行業深入解析，這些是目前的AI做不到的。

AI大模型之間的差距也十分明顯，本輪測試中文心3.5和豆包表現出色，創作的內容行文通暢，也沒有明顯的數據錯誤，可並列第一梯隊。訊飛星火延續了精煉的風格，字數雖然不多，但該有的都有了，雖然有一些數據錯誤，但並不多，大多數數據依然準確，位列第二梯隊。

Kimi以長文本生成與解析能力著稱，不過似乎不太擅長撰寫文章，出現了較爲嚴重的數據錯誤，GPT-4o因水土不服，撰寫中文報道問題較爲嚴重，加錢升級至ChatGPT Plus才能享受到更好的服務，這兩款大模型在本輪測試中位列第三梯隊。

在日常工作中，AI大模型對於我們而言，除了幫忙檢查文章的錯別字、語病等問題，還有一項實用的功能——AI繪圖。因此，小雷特地加入了繪圖測試環節。

數碼圈文章配圖：偶爾能用，但提升空間較大

因擔心版權糾紛，雷科技小夥伴爲文章配圖時極其謹慎，但很多文章配圖較爲麻煩，因而小雷經常使用AI生成圖片。

最開始小雷本想使用AI生成一張iQOO Z9 Turbo+的圖7xsx.kirara-support-doctor.com片，結果所有AI大模型都不能準確生成指定機型，即便互聯網上已有不少該機型的圖片。小雷只好將限定語定爲“一個人捧着手機打遊戲”，突出使用手機的場景，淡化具體手機型號，用於文章封面。

（因不支持繪圖功能，Kimi不參與本輪測試。）

豆包：未能正確理解遊戲與手機

在前幾輪取得了優異成績的豆包，本輪測試卻有點離譜，似乎無法正確理解“手機”和“遊戲”，所繪製的圖，都是拿着遊戲手柄，而且手指存在不協調的情況。

豆包繪圖功能提供的選項較爲豐富，可選擇不同風格，小雷又用人像攝影風格試了一次，結果給出的圖片風格換了，但圖片中的人手中握着的依然是遊戲手柄或者畸形的手機。

在理解自然語言和繪圖方面，豆包的表現並不出色，但提供的繪圖後期處理功能爲其扳回一分。AI生成的圖片基本爲1:1比例，即便在描述中加了比例限定詞，生成的圖片還是1:1，不適合用作文章配圖和封面。豆包加入了區域重繪、擴圖、擦除等功能，可以對圖片進行一定程度的修改，例如小雷就使用擴圖功能，將1:1的圖片擴充至16:9，更適合用來做文章封面。

儘管有這些功能，本輪測試小雷依然無法給豆包打高分，畢竟識別自然語言並繪製出我們想要的圖纔是最重要的功能，後期修改有太多工具可以實現。

訊飛星火：正確生成圖片，自定義能力不足

在前幾輪的測試中，訊飛星火表現中規中矩，但本輪測試訊飛星火卻拿到了高分，所繪製的圖片接近我理想中的結果，最容易出錯的手指處也沒有太嚴重的不協調。

遺憾的是，訊飛繪畫大師智能體提供沒有提供創作風格可選，也沒有後期處理功能，以至於文章的比例不適合用於文章配圖，且未能突出“捧着手機打遊戲”的主題。如果想要將這張圖處理成封面，還需要其他應用的介入。

文心3.5：完全可用，“盛名之下無虛士”

與豆包、訊飛星火生成的圖片相比，文心3.5繪製圖片更符合小雷的預期。

首先，其他幾款圖片的手機都顯現出了背面，可背面結構較爲複雜，非常容易出錯，而且用戶能夠一眼看出圖片是不是文章提到的手機，文心3.5則突出了手機的正面，用戶難以分辨這是哪一款機型。

其次，訊飛星火生成的圖片重點落在了全景，文心3.5繪製的圖片則聚焦手機主體，突出了“捧着手機打遊戲”這一主題。唯一遺憾的是，手機屏幕沒有顯示遊戲畫面。

文心3.5同樣沒有提供風格選項和後期處理功能，期待文心3.5可以後續豐富一下繪圖功能，爲用戶文章配圖提供更多便利。

GPT-4o：機身、屏幕全亂套，繪圖如此拉胯？

AI繪製手機圖片時最大的問題在於背面的設計元素細節混亂，但GPT-4o給出的結果，比小雷預想中更離譜，因爲它將本該是手機背面的區域，繪製成了手機屏幕……

只能說，ChatGPT並不是萬能的，無論是撰寫文章還是製作圖片，都可能出現各種問題。GPT-4o本身也沒有提供後期處理功能和風格選擇，看來除了部分專業AI製圖軟件，如豆包一般提供圖片豐富風格選擇和後期功能的AI大模型並不多。

最後說一下圖片的分辨率，雷科技配圖對於圖片的清晰度和分辨率都有一定的要求，封面圖的要求就更高了。這四款大模型中，訊飛星火和GPT-4o繪製的圖片分辨率爲1024×1024，清晰度明顯較高，文心3.5繪製的圖片分辨率則爲769×768，分辨率最低，無法用作雷科技文章封面。

豆包生成的圖片原圖也是1024×1024，但可以使用擴圖和重繪功能進行修改，例如小雷將圖片擴圖爲16:9後，分辨率就變成了1820×1024。

小結：繪圖不如撰文成熟，改進空間都不小

繪圖功能是AI大模型的基礎功能之一，也是長期圍繞着AI大模型的難題，從結果來看，AI大模型細節方面依然有所欠缺，如豆包未能正確理解限定詞，GPT-4o將手機背面區域繪製成了屏幕等等。但我們也能看出AI的進步，曾被用於分辨AI和真人繪畫的手指部分，AI作圖的和諧性越來越高，很少再出現多一根或少一根手指的情況。

當我將訊飛星火繪製的圖片上傳至其他AI大模型，測試是否能夠調整爲16:9比例時，發現所有AI大模型都無法準確識別指令，訊飛星火更是稱圖片已是16:9比例，豆包則基於該圖片重繪了一張1:1的圖片，似乎所有AI大模型都無法準確識別圖片比例或難以根據指定比例繪圖，這點也急需改進。

（圖源：豆包AI截圖）

大多數AI大模型只提供繪圖功能，沒有相應的模板和後期處理功能，很難穩定爲文章繪製配圖和封面，這幾款AI大模型的繪圖功能仍有較大提升空間。

總結：AI入職科技媒體做編輯，未來可期？

經過三輪測試，小雷認爲，目前AI倘若“入職”任何一家科技媒體，恐怕都很難通過試用期，雖說部分工作偶爾可以達到實習生水平，但大體上距離一位合格的編輯還有較大差距。

一位合格的科技媒體編輯，至少需要以下能力：

現在看來，AI要做好其中任何一項工作都很難。

在這三輪測試中，最令小雷意想不到的是第一輪測試，總結PDF重點內容，理論上是最簡單的任務，可沒有一款AI大模型可以達到高分，普遍是車軲轆話來回轉。第二輪測試是平均表現最好的一輪，只有Kimi和GPT-4o出現了較爲嚴重的問題。

而第三輪測試中，訊飛星火和文心3.5表現較好，其他兩款繪製出的圖片都存在明顯缺陷。然而文心3.5繪製出的圖片分辨率太低，訊飛星火未能突出主體，只能算高分，卻拿不到滿分。

三輪測試下來，綜合表現最好的是文心3.5和豆包，其次則是訊飛星火，Kimi和GPT-4o則表現相對較差。當然，本次測試並不能代表文心一言和ChatGPT的全部實力，這兩款大模型都有付費版，掏錢才能享受更好的體驗。

總而言之，AI大模型已經擁有了撰寫發佈會文章的能力，但訊飛星火的數據錯誤表明，哪怕真的用AI大模型創作文章，也要有編輯加以審覈和整理，避免出現數據信息錯漏。而面對較長的文案，AI大模型給出的內容很可能會像總結出的文檔一樣，車軲轆話亂轉，卻說不到實處。

（圖源：豆包生成）

2022年底AI大模型才爆火，至今不過兩年時間，從最初一片嘲笑之聲，到現在越來越多人接受了AI大模型，並將其作爲提高工作效率的幫手，AI大模型的進步肉眼可見。如小雷就經常使用豆包AI生成圖片，用Kimi幫忙檢查文章。

兩年時間能取得如此驚人的進步，也讓小雷對AI更有信心。只是AI不具備真正的推理能力這一問題，可能會成爲阻礙AI功能發展的進步。

在《GSM-Symbolic: 理解大型語言模型數學推理的侷限性》論文中，研究人員稱AI大模型只能套用訓練數據的模式解決問題，一旦出現嚴重的數據污染，AI大模型回答問題的準確度就可能大幅下降。

至少以現在的眼光來看，AI大模型雖然可以不斷進步，但完全取代編輯撰寫文章仍是不可能的。唯有真正賦予AI推理能力，才能讓AI告別套用現有模式，用“思考”去解決問題。

大模型挑戰手機發佈會報道：文心與豆包表現出色，GPT名不副實

相關資訊