☰

ChatGPT大更新！能看能聽也能說，多模態功能即將上線

ChatGPT 又更新了：語音和圖像交互即將面世。

昨晚，OpenAI 在一篇最新的博客中表示，ChatGPT 將推出新的語音和圖像功能。用戶不僅可以在文本框中輸入提示，還可以通過語音或圖像與 ChatGPT 交流。據 OpenAI 稱，新功能將在未來兩週內向 ChatGPT 付費用戶推出，不久之後會推廣到其他用戶。

ChatGPT 新增語音和圖像功能

據介紹，用戶只需輕輕點擊一個按鈕，然後提出問題，便可以與 ChatGPT 進行語音交流。ChatGPT 將迅速將這些口述的問題轉換成文本，並將其輸入至大型語言模型中。隨後，ChatGPT 會將這些答案再次轉化爲語音來回答問題。這一體驗類似於與 Alexa 或谷歌助手對話，但 OpenAI 致力於不斷改進底層技術，提高回答問題的質量。

語音轉文本的任務由 OpenAI 的 Whisper 模型提供支持。同時，該公司正在引入一款全新的文本轉語音模型，據稱可以通過僅幾秒鐘的語音樣本生成與人類相似的音頻。用戶還可以從 5 個不同的選項中選擇 ChatGPT 的聲音。此外，OpenAI 正在與 Spotify 合作，將播客內容翻譯成其他語言，同時保留播客主持人的聲音。

圖片搜索功能類似於 Google Lens。用戶只需拍攝感興趣的照片，ChatGPT 就可以解讀照片中的信息並提供相應的答案。此外，用戶還可以利用應用內的繪圖工具，以更清晰的方式表達問題，或者直接通過圖片或文本提出問題。這正是 ChatGPT 獨特的特性所帶來的幫助，用戶可以與機器人進行互動，逐步完善答案，而無需首先進行搜索並在得到錯誤答案後再次搜索。

圖像理解得到了多模態 GPT-3.5 和 GPT-4 的支持。這些模型將其語言推理技能應用於各種圖像，包括照片、屏幕截圖，以及包含文本和圖像的文檔。

構建安全有益的通用人工智能

值得注意的是，OpenAI 在博客中表示其目標是構建安全有益的通用人工智能（AGI）。新增的語音和圖像功能可能會帶來一些風險，但 OpenAI 正在採取措施緩解這些風險。

新的語音技術能夠在短短几秒鐘的真實語音片段中生成逼真的合成語音，但這一技術存在潛在危險，例如惡意行爲者可能會濫用這項技術，冒充公衆人物或實施欺詐。

出於對這些風險的關注，OpenAI 決定將這項技術應用於特定的用例，例如語音聊天，該功能是由專業配音演員親自錄製。此外，OpenAI 也與其他合作伙伴以類似的方式合作。例如上文提到，Spotify 正在積極利用這項技術推出了語音翻譯功能，使播客能夠利用自己的聲音將節目翻譯成其他語言。

此外，基於視覺的模型也提出了新的挑戰，例如對人類幻覺的識別以及對高風險領域圖像的解釋依賴於模型的能力。在進行更廣泛的部署之前，OpenAI 與其紅隊成員共同測試了該模型在極端主義和科學領域等方面的潛在風險，並對一系列不同的 Alpha 測試人員進行了評估。通過這項研究，OpenAI 對一些關鍵細節進行了調整，確保負責任地應用這項技術。

ChatGPT大更新！能看能聽也能說，多模態功能即將上線

相關資訊