蘋果研究人員開發了一種名爲ReALM的人工智能系統
蘋果的研究人員開發了一種名爲ReALM(參考解析爲語言建模)的人工智能系統,旨在從根本上增強語音助手理解和響應命令的方式。
在一篇研究論文中(通過VentureBeat),蘋果概述了一個新的系統,說明大型語言模型如何處理引用解析,其中包括破譯對屏幕實體的模糊引用,以及理解對話和背景上下文。因此,ReALM可能會帶來與設備更直觀、更自然的交互。
指稱解析是自然語言理解的重要組成部分,它使用戶能夠在對話中使用代詞和其他間接指稱,而不會產生混淆。對於數字助理來說,這種能力歷來是一個巨大的挑戰,受限於解釋廣泛的語言提示和視覺信息的需要。蘋果的ReALM系統試圖通過將複雜的引用解析過程轉換爲純語言建模問題來解決問題。通過這樣做,它可以理解對屏幕上顯示的視覺元素的引用,並將這種理解整合到對話流中。
ReALM使用文本表示法重新構建屏幕的視覺佈局。這包括解析屏幕上的實體及其位置,以生成捕獲屏幕內容和結構的文本格式。蘋果公司的研究人員發現,這一策略與針對指代解析任務的特定語言模型微調相結合,顯著優於傳統方法,包括OpenAI的GPT-4。
ReALM可以使用戶能夠根據當前屏幕上顯示的內容更有效地與數字助理交互,而不需要精確、詳細的說明。這有可能使語音助理在各種環境中更加有用,例如幫助司機在駕駛時導航信息娛樂系統,或者通過提供更容易和更準確的間接交互手段來幫助殘疾用戶。