您的位置：首頁 >正文

焦點滾動:物理AI在等待屬于它的架構

來源：證券之星財經時間：2026-06-11 14:02:10

你隨便打開手機上的大模型，問它一個問題：“把一只玻璃杯推到桌子邊緣，會發生什么？”

它會毫不猶豫地告訴你：杯子會掉下去，然后摔碎。

(資料圖片)

聽起來很聰明。但真相是，它根本不知道杯子為什么往下掉。它只是在訓練數據里見過太多次“杯子”“掉落”“破碎”這幾個詞扎堆出現，然后根據概率統計，給出了最像正確答案的那句話。

文本世界里，這種“聰明的猜測”游刃有余。可一旦我們試圖把AI塞進一臺需要端盤子、疊衣服、走樓梯的機器人，麻煩就來了。

過去幾年，CNN和Transformer稱得上是人工智能領域最耀眼的兩個名字。一個統治了計算機視覺，一個把語言模型推到了前所未有的高度。但當聚光燈從屏幕轉向現實世界，當AI必須離開數字沙盤、踏入物理環境與人真實交互時，一個越來越尖銳的問題浮出水面：這兩種我們無比依賴的架構，是不是從根本上就不適合干物理AI這檔子事？

只會認皮相的眼睛

先說CNN。

這套機制的設計初衷是模擬人的視覺系統，用一堆可學習的濾波器去掃描圖像，提取邊緣、紋理、形狀，然后層層抽象直到完成識別。在ImageNet上它打敗了人類，在很多視覺任務上幾乎成了默認方案。

但問題恰恰出在它的設計哲學上——CNN本質上是在學習“像素與標簽之間的統計關聯”，而不是在理解“物體由什么構成”。

來看一個簡單的例子。一個小孩看到一輛被幾棵盆栽擋住一半的汽車，即便從沒見過這種遮擋方式，也能毫不費力判斷那是一輛車。因為他的腦子有一個“車由輪子、車身、車窗組成”的認知框架，某個部件被擋住，他用其他線索照樣補全。可標準的CNN沒這個本事。它的判斷基于整體像素模式，一旦遮擋方式稍微變化——比如擋的不是車身而是車燈——那些精心訓練的卷積核就亂了陣腳。

研究表明，傳統黑箱式深度CNN在處理部分遮擋時表現極不穩定，直到研究者引入“物體部件組合”的結構化方法，才顯著提升了對遮擋物體的識別魯棒性。換句話說，你得額外給它加料，它才勉強學會了人類天生就懂的事情。

把這個問題放到物理AI的場景里，更要命。機器人走在路上，眼前隨時出現堆疊的箱子、交錯的管道、半開的門——全是動態的、部分遮擋的真實場景。如果它只能依賴CNN輸出的像素特征做決策，而缺乏對物體構成的內在理解，稍微轉個身、光線變一下，原本“認識”的東西就認不出來了。

還有更頭疼的：CNN對紋理有一種近乎偏執的依賴。它更傾向于根據表面紋理分類，而不是根據物體形狀。就像一個人判斷貓不看耳朵、瞳孔和胡須，只看毛色——毛色像貓的動物全算貓，換個毛色就翻臉不認。這種偏執，在變幻莫測的物理世界里，是致命的。

只背答案的考生

如果說CNN的盲區在于“看見了卻不懂”，那Transformer的問題更深刻——它壓根不是為了理解因果而設計的。

Transformer的核心武器是自注意力機制，能一次性捕捉序列中任意兩個位置之間的依賴關系。這在語言模型里簡直是神器——一個詞能和幾千字外的另一個詞建立關聯，對理解語義、生成連貫文本至關重要。但請注意，“注意力”算出來的只是統計相關性。訓練數據里，“打雷”和“下雨”常常一起出現，所以它們之間的注意力權重很高。但模型并不知道，是打雷導致了下雨，還是兩者背后另有原因。

說穿了，Transformer是個頂級的“開普勒”——能描述現象、總結規律，卻永遠成不了“牛頓”。它背下了答案，卻沒學懂公式。

物理AI不需要這種死記硬背的好學生。一臺在工廠里搬運零件的機器人，必須理解力學的基本規則：推一個箱子，箱子的移動速度和方向取決于推力大小、摩擦系數、箱子質量。如果模型沒有內化這些物理因果，只是根據視覺輸入與動作輸出的統計關聯做決策，那一旦地板從干燥變濕滑，或者零件材質從金屬換成塑料——整套策略就全盤崩塌。

有研究者一針見血地指出，當前的具身大模型本質上是“記憶軌跡”而非“理解邏輯”。圖靈獎得主姚期智也直言：如今具身智能最大的技術瓶頸之一，就是它們只會不斷模仿人的行為，卻缺乏可解釋的世界模型和物理因果推理過程。從“模仿”走向“推理”，這道門檻，Transformer的底層邏輯——預測下一個token——根本跨不過去。

數據的荒漠，能耗的黑洞

就算暫時把架構層面的根本局限放在一邊，光看工程現實，CNN和Transformer在物理AI上也已經步履蹣跚了。

數據就是第一個繞不過去的坎。大語言模型之所以能成，是因為互聯網本身就是一座取之不盡的數據礦山——維基百科、新聞、論壇、論文、代碼庫，全是現成的、經過標注的文本數據。但物理AI呢？機器人需要的數據來自真實世界中的每一次交互：每一次抓取、每一步行走、每一下推拉。每一幀數據背后都是真實的物理動作和對應的多模態傳感反饋。

這樣的數據極難大規模采集。一臺遙操作采集設備，單條高質量數據的成本折合高達3到5元，而全行業匯聚的高質量具身數據僅約50萬小時，不足大語言模型訓練數據的數萬分之一。一個具備通用泛化能力的具身模型，至少需要千萬小時級別的數據支撐。缺口擺在這里，誰都看得到問題的嚴重性。

數據問題即使解決了，算力成本也不容樂觀。Transformer的注意力機制有一個廣為人知的軟肋：計算復雜度與序列長度的平方成正比。在語言模型里，這O(n2)的復雜度已經夠讓人頭疼了；但在物理AI場景里，傳感器流是連續、高頻、多模態的——視覺、觸覺、慣性測量單元、關節角度——數據源源不斷涌入。如果在機器人本體上跑一個參數量幾十億的Transformer來處理這么多維度的時序數據，功耗和延遲都會飆到不可接受的水平。

有研究指出，全局注意力機制下每個token都要和所有其他token計算，而CNN里最基本的相鄰關系，在Transformer里卻需要大量冗余運算。用一句話說：你花了大價錢買了張貴得離譜的入場券，換來的是拖泥帶水的決策速度。

需要新地圖

說CNN和Transformer不適用于物理AI，不是說它們在物理AI中完全沒有用武之地。CNN可以拿來做感知端的多模態特征提取，Transformer可以用來做高層任務規劃和語義理解。問題是，不能把一個本來設計來處理離散序列或靜態圖像的架構，硬塞給它“理解物理世界因果律”這種完全不匹配的期望。

物理AI需要的是能內嵌物理規律的模型——它應該天然懂得連續性、守恒律和因果鏈，而不是靠海量數據硬生生去擬合出這些規律的表面特征。它需要高效的時序推理能力，能在有限計算資源下完成實時閉環控制。它需要從“模仿人的動作”升級為“理解物理的邏輯”，先想清楚再動手。

劍橋大學一位控制理論學者打過一個讓人深思的比方：用Transformer去學習物理規律，就像用鋼琴彈一首小提琴奏鳴曲——聲音可能接近，但弓弦之間那種復雜的物理耦合，是你永遠彈不出來的。

眼下，物理AI的賽道才剛起跑。真正需要的東西，不是把CNN和Transformer往機器人里硬塞，而是敢于質疑主流范式的勇氣。畢竟，物理世界不會因為你的模型參數夠多、注意力頭夠密，就放棄它對因果律的堅持。

在一條用概率統計撐起來的數字長廊里，你永遠找不到牛頓的蘋果。

(文章來源：公眾號退一步看看)

關鍵詞：財經頻道財經資訊

菠萝蜜视频在线观看国际|成免费CRM大全下载情趣直播|国产精品看高国产精品不卡|国产美女视频一区二区三区|成人酒吧2|日产无人区一线二线三线HAV|中文字幕久久波多野结衣av不卡

焦點滾動:物理AI在等待屬于它的架構

相關內容

熱門資訊

文章排行

最新圖文