菠萝蜜视频在线观看国际|成免费CRM大全下载情趣直播|国产精品看高国产精品不卡|国产美女视频一区二区三区|成人酒吧2|日产无人区一线二线三线HAV|中文字幕久久波多野结衣av不卡

您的位置:首頁 >正文

焦點滾動:物理AI在等待屬于它的架構

你隨便打開手機上的大模型,問它一個問題:“把一只玻璃杯推到桌子邊緣,會發生什么?”

它會毫不猶豫地告訴你:杯子會掉下去,然后摔碎。


(資料圖片)

聽起來很聰明。但真相是,它根本不知道杯子為什么往下掉。它只是在訓練數據里見過太多次“杯子”“掉落”“破碎”這幾個詞扎堆出現,然后根據概率統計,給出了最像正確答案的那句話。

文本世界里,這種“聰明的猜測”游刃有余。可一旦我們試圖把AI塞進一臺需要端盤子、疊衣服、走樓梯的機器人,麻煩就來了。

過去幾年,CNN和Transformer稱得上是人工智能領域最耀眼的兩個名字。一個統治了計算機視覺,一個把語言模型推到了前所未有的高度。但當聚光燈從屏幕轉向現實世界,當AI必須離開數字沙盤、踏入物理環境與人真實交互時,一個越來越尖銳的問題浮出水面:這兩種我們無比依賴的架構,是不是從根本上就不適合干物理AI這檔子事?

只會認皮相的眼睛

先說CNN。

這套機制的設計初衷是模擬人的視覺系統,用一堆可學習的濾波器去掃描圖像,提取邊緣、紋理、形狀,然后層層抽象直到完成識別。在ImageNet上它打敗了人類,在很多視覺任務上幾乎成了默認方案。

但問題恰恰出在它的設計哲學上——CNN本質上是在學習“像素與標簽之間的統計關聯”,而不是在理解“物體由什么構成”。

來看一個簡單的例子。一個小孩看到一輛被幾棵盆栽擋住一半的汽車,即便從沒見過這種遮擋方式,也能毫不費力判斷那是一輛車。因為他的腦子有一個“車由輪子、車身、車窗組成”的認知框架,某個部件被擋住,他用其他線索照樣補全。可標準的CNN沒這個本事。它的判斷基于整體像素模式,一旦遮擋方式稍微變化——比如擋的不是車身而是車燈——那些精心訓練的卷積核就亂了陣腳。

研究表明,傳統黑箱式深度CNN在處理部分遮擋時表現極不穩定,直到研究者引入“物體部件組合”的結構化方法,才顯著提升了對遮擋物體的識別魯棒性。換句話說,你得額外給它加料,它才勉強學會了人類天生就懂的事情。

把這個問題放到物理AI的場景里,更要命。機器人走在路上,眼前隨時出現堆疊的箱子、交錯的管道、半開的門——全是動態的、部分遮擋的真實場景。如果它只能依賴CNN輸出的像素特征做決策,而缺乏對物體構成的內在理解,稍微轉個身、光線變一下,原本“認識”的東西就認不出來了。

還有更頭疼的:CNN對紋理有一種近乎偏執的依賴。它更傾向于根據表面紋理分類,而不是根據物體形狀。就像一個人判斷貓不看耳朵、瞳孔和胡須,只看毛色——毛色像貓的動物全算貓,換個毛色就翻臉不認。這種偏執,在變幻莫測的物理世界里,是致命的。

只背答案的考生

如果說CNN的盲區在于“看見了卻不懂”,那Transformer的問題更深刻——它壓根不是為了理解因果而設計的。

Transformer的核心武器是自注意力機制,能一次性捕捉序列中任意兩個位置之間的依賴關系。這在語言模型里簡直是神器——一個詞能和幾千字外的另一個詞建立關聯,對理解語義、生成連貫文本至關重要。但請注意,“注意力”算出來的只是統計相關性。訓練數據里,“打雷”和“下雨”常常一起出現,所以它們之間的注意力權重很高。但模型并不知道,是打雷導致了下雨,還是兩者背后另有原因。

說穿了,Transformer是個頂級的“開普勒”——能描述現象、總結規律,卻永遠成不了“牛頓”。它背下了答案,卻沒學懂公式。

物理AI不需要這種死記硬背的好學生。一臺在工廠里搬運零件的機器人,必須理解力學的基本規則:推一個箱子,箱子的移動速度和方向取決于推力大小、摩擦系數、箱子質量。如果模型沒有內化這些物理因果,只是根據視覺輸入與動作輸出的統計關聯做決策,那一旦地板從干燥變濕滑,或者零件材質從金屬換成塑料——整套策略就全盤崩塌。

有研究者一針見血地指出,當前的具身大模型本質上是“記憶軌跡”而非“理解邏輯”。圖靈獎得主姚期智也直言:如今具身智能最大的技術瓶頸之一,就是它們只會不斷模仿人的行為,卻缺乏可解釋的世界模型和物理因果推理過程。從“模仿”走向“推理”,這道門檻,Transformer的底層邏輯——預測下一個token——根本跨不過去。

數據的荒漠,能耗的黑洞

就算暫時把架構層面的根本局限放在一邊,光看工程現實,CNN和Transformer在物理AI上也已經步履蹣跚了。

數據就是第一個繞不過去的坎。大語言模型之所以能成,是因為互聯網本身就是一座取之不盡的數據礦山——維基百科、新聞、論壇、論文、代碼庫,全是現成的、經過標注的文本數據。但物理AI呢?機器人需要的數據來自真實世界中的每一次交互:每一次抓取、每一步行走、每一下推拉。每一幀數據背后都是真實的物理動作和對應的多模態傳感反饋。

這樣的數據極難大規模采集。一臺遙操作采集設備,單條高質量數據的成本折合高達3到5元,而全行業匯聚的高質量具身數據僅約50萬小時,不足大語言模型訓練數據的數萬分之一。一個具備通用泛化能力的具身模型,至少需要千萬小時級別的數據支撐。缺口擺在這里,誰都看得到問題的嚴重性。

數據問題即使解決了,算力成本也不容樂觀。Transformer的注意力機制有一個廣為人知的軟肋:計算復雜度與序列長度的平方成正比。在語言模型里,這O(n2)的復雜度已經夠讓人頭疼了;但在物理AI場景里,傳感器流是連續、高頻、多模態的——視覺、觸覺、慣性測量單元、關節角度——數據源源不斷涌入。如果在機器人本體上跑一個參數量幾十億的Transformer來處理這么多維度的時序數據,功耗和延遲都會飆到不可接受的水平。

有研究指出,全局注意力機制下每個token都要和所有其他token計算,而CNN里最基本的相鄰關系,在Transformer里卻需要大量冗余運算。用一句話說:你花了大價錢買了張貴得離譜的入場券,換來的是拖泥帶水的決策速度。

需要新地圖

說CNN和Transformer不適用于物理AI,不是說它們在物理AI中完全沒有用武之地。CNN可以拿來做感知端的多模態特征提取,Transformer可以用來做高層任務規劃和語義理解。問題是,不能把一個本來設計來處理離散序列或靜態圖像的架構,硬塞給它“理解物理世界因果律”這種完全不匹配的期望。

物理AI需要的是能內嵌物理規律的模型——它應該天然懂得連續性、守恒律和因果鏈,而不是靠海量數據硬生生去擬合出這些規律的表面特征。它需要高效的時序推理能力,能在有限計算資源下完成實時閉環控制。它需要從“模仿人的動作”升級為“理解物理的邏輯”,先想清楚再動手。

劍橋大學一位控制理論學者打過一個讓人深思的比方:用Transformer去學習物理規律,就像用鋼琴彈一首小提琴奏鳴曲——聲音可能接近,但弓弦之間那種復雜的物理耦合,是你永遠彈不出來的。

眼下,物理AI的賽道才剛起跑。真正需要的東西,不是把CNN和Transformer往機器人里硬塞,而是敢于質疑主流范式的勇氣。畢竟,物理世界不會因為你的模型參數夠多、注意力頭夠密,就放棄它對因果律的堅持。

在一條用概率統計撐起來的數字長廊里,你永遠找不到牛頓的蘋果。

(文章來源:公眾號退一步看看)

關鍵詞: 財經頻道 財經資訊

相關內容