东升国际官网

申請試用
登入
  • hd-share-img01
資訊與博客

商湯王曉剛:世界模型帶來智能駕駛3.0階段

2025-09-29

9月21日 ,由汽車之家主辦的「汽車之家全球AI科技大會」在北京舉行 。商湯科技聯合創始人、執行董事、CTO、商湯絕影CEO王曉剛出席大會 ,並發表《世界模型:智能駕駛範式演進新路標》主題演講 ,分享了「絕影開悟」世界模型給智能駕駛帶來的技術變遷 。

image.png


演講中他談到三個主题點:


第一 ,世界模型「天生式智駕」帶來智能駕駛3.0階段 。智能駕駛從依賴人为標注的「規則式智駕」1.0階段 ,發展到把人類行爲積累轉化成爲模型的「端到端智駕」2.0階段 ,最終正邁向通過世界模型和强化學習 ,帶來超过人類的「天生式智駕」3.0階段 。


第二 ,「絕影開悟」世界模型推動智能駕駛在三個方面获得突破 。 一是突破數據瓶頸 ,通過世界模型可能天生無限長尾場景 ;二是有越发確定的技術安全邊界 ,通過仿真模擬物理世界 ,在仿真環境中不斷嘗試 ;三是通過自主進化達到超过人類駕駛的體驗 。


第三 ,「絕影開悟」世界模型實現全場景覆蓋 ,推動智能駕駛、具身智能逾越式發展 。世界模型積累百萬級數據集 ,覆蓋各種複雜的場景 ,實現高保真、多視角時空一致性、4D實時互動 。同時 ,世界模型在自動駕駛場景裏開發出來的技術體系 ,也將賦能具身智能發展 。


以下爲主題演講內容:


各位領導、各位同仁、各位嘉賓 ,各人下午好!


极度感謝汽車之家的邀請 ,來參加全球AI科技大會 ,也可能有機會和各人分享世界模型——通用人为智能給自動駕駛帶來的技術的變遷 。


▎世界模型「天生式智駕」帶來智能駕駛3.0階段


首先 ,我們認爲自動駕駛技術演進迪雔率长短?斓 。自動駕駛作爲人为智能极度沉要的組成部门 ,它的技術變遷也反映了人为智能發展的三個階段 。各人比較熟悉的基於規則的智能駕駛 ,是自動駕駛的第一個階段 。這一階段通過AI輸出感知的結果 ,成立各種規則 ,並預定義這些邏輯 ,再根據優化物理模型實現規控  ;渡鲜霈F象 ,我們在人为智能發展的每個階段會問這樣一個問題:智能到底是從哪裏來?實際上 ,在第一個階段 ,好多的智能來自於人为 。人類必要大量標注各類感知數據 ,然後得到它的輸出 ,並人为書寫各式各樣的規則 。所以在上述階段有一句話:有几多人为就有几多的智能 。而這個階段很像人为智能1.0發展的階段 ,例如我們會做好多人臉識別的視頻分析 ;我們會針對安防的場景 ,人为輸入智能的數據 。


第二個階段是大模型的出現 ,這是人为智能領域2.0 ,代表産品如ChatGPT 。在互聯網上出現了過去好多年人類行爲的數據積累 ,好比各種文章、代碼 ,這些都是人類行爲智能的體現 。在自動駕駛領域 ,對應的是人類的駕駛行爲 ,也就是第二階段行業內推動的端到端自動駕駛 。端到端自動駕駛把過去長時間人類行爲積累的智能轉化成爲模型的智能 ,這時候就出現了很大的智能和體驗上的躍遷 。但是其自身也有瓶頸 ,那就是人類的行爲就是智能的天花板 ,同時這種智能依賴大量高質量數據 。從自動駕駛發展來看 ,今天的大模型發展也遇到了上述瓶頸 ,因爲我們在互聯網上積累起來的數據價值面臨枯竭境界 。


因而 ,便進入了第三個階段 ,通過世界模型 ,通過天生式智駕 ,通過强化學習做出進一步的突破 。舉一個极度典型的例子 ,2015年在圍棋領域出現了AIphaGo 。之後又出現了AIphaZero ,相較於AIphaGo ,AIphaZero不必要任何人類知識的輸入 ,它也可能産生大量的智能 。如今在自動駕駛領域 ,各人都但愿有一個世界模型 ,這個模型就像在圍棋裏面 ,可能創造棋盤和人類定義的圍棋規則 ,這就是更高階的智能 。對照圍棋的例子 ,我們但愿自動駕駛也可能通過强化學習來突破人類行爲上限 。要達成這個目標 ,我們就必要一個世界模型 。讓世界模型來模擬物理世界的規律、人類行爲的法則和規律 。在仿真的世界模型環境裏面 ,機器通過强化學習做到不斷的提升 ,以及突破人類駕駛的上限 。


我們能够看到今天在人为智能3.0的發展中 ,人們還提出了具身智能 ,這是從原來互聯網數據走出來 ,通過跟物理世界交互産生的新智能 。在具身智能領域 ,世界模型也會表演极度沉要的角色 。


▎「絕影開悟」世界模型推動智能駕駛在三個方面获得突破


回到端到端自動駕駛所面臨的問題 ,重要有三個方面 。一是必要大量的數據 。特斯拉擁有幾百萬台車 ,并且這些車的傳感器配置是一致的 ,所以可能回流大量的數據 。而我們面臨的問題是沒有如此規模的數據 。二是對於各種危險複雜的場景 ,尤其是Corner Case ,這些場景獲得成本是极度高的 ,風險也是极度高的 。怎麽獲得這些高質量的數據是我們必要解决的問題 。第三個是安全的邊界 ,F在端到端自動駕駛中發現一個問題場景 ,我們就必要採集好多跟這個場景所類似的其他數據 ,沉新訓練模型 。但是模型訓練完之後也不成能確定這個場景是否真正被解决 ,因爲端到端技術有不確定性在 。


針對這些問題 ,我們要把世界模型、强化學習 ,以及端到端技術相結合 。在這裏 ,主题是要有一個端到端的多模態大模型 。這個模型的輸入可能是各種視覺的、激光的、語言文字導航的信息 ,輸出是車輛的行爲 。端到端大模型會預測車輛的軌迹 ,基於預測的軌迹反饋給世界模型 ,世界模型就可能模擬仿真出物理世界將會怎樣的變化 ,給我們反饋基於世界模型合成的視頻 ,這些反饋將沉新訓練端到端模型 。并且這個步骤會告訴我們 ,什麽樣的仿真模型是好的 ,如此循環往復的迭代 ,不斷提升端到端的机能 。同時 ,在這個仿真環境裏面能够無數次的試錯 ,有了問題場景以後 ,通過無數次的嘗試肯定可能解决我們所關心的問題 ,并且還能做到舉一反三、舉一反十、甚至反百 。當下的世界模型並不是無中生有 ,而是針對問題場景 ,我們通過複現物理場景 ,把現實裏不能改變的各種身分 ,如天氣、路路、車速等 ,通過模擬仿真場景 ,比較徹底地解决類似問題 。


接下來我給各人舉一個例子 ,看一看我們是怎麽用世界模型和强化學習來解决問題的 。這裏展示的是一個問題場景 。前方有一個施工佔路場景出現 ,我們必要急刹 ,各人想一想实现這個動作必要幾步?第一步必要做4D仿真的複現 ,通過3DGS和靜態場景複現 ,依附世界模型對它進行建復 ,就可能得到更高質量的4D空間 。在4D空間裏就能够嘗試各種分歧駕駛的行爲 ,調整端到端模型 ,嘗試各種分歧的駕駛行爲 ,直到在這個環境裏找到最佳的駕駛行爲 。我們有一套美满的辦法去評價什麽樣的駕駛行爲是好的 。


在上述單一場景裏我們得到模型的更新和驗證後 ,接下來我們必要得到它進一步的多個泛化場景 ,F實世界中有好多類似的場景 ,好比說複雜的施工區域 ,必要換路通畅 ,遇到圍欄必要减速等 。這些分歧的場景都是通過世界模型所天生出來的各類泛化場景 。我們的模型在這些泛化場景裏面做進一步的學習 ,以及進行測試 。


所以說現在的世界模型已經能够推動自動駕駛在三個方面获得突破 。一是數據瓶頸 ,能够通過世界模型産生無限長尾場景 。二是可能得到驗證的技術邊界 ,通過仿真模擬恢復物理的世界 ,在仿真環境不斷的嘗試 。三是通過强化學習達到超过人類駕駛的體驗 。


▎「絕影開悟」世界模型實現全場景覆蓋 ,推動智能駕駛、具身智能逾越式發展


要解决這些問題 ,背後主题是必要有個极度壮大、質量极度高的世界模型來沉構萬千世界 ,讓安全有更多的確定性 。我們對世界模型會有哪些要求呢?一是天生的數據應該是可能面向量産的 ,可能有更多的場景 ,并且可能一鍵天生複雜可控的場景 。二是場景裏面有各種成分 ,能够針對各種成分進行編輯 ,可能把各種成分通過自由組合方式 ,實現更多的拓展 。三是實時 ,在肯定空間裏面有极度高效的推理效能 ,促使在世界模型裏面進行實時互動 。


這裏我們給各人看一個例子 。我們坐車裏遇到Cut-in這樣比較危險的場景 。我們能够看到車裏有7個攝像頭 ,每個攝像頭都在記錄 。而要天生一個好的世界模型 ,就要维持多個攝像頭下的時空一致性 。早在2024年 ,Sora模型就能够实现各種視頻的天生 ,現如今用世界模型做自動駕駛的話 ,它的難點在哪裏?那就是天生有連續性的視頻比圖像更難 。天生用在自動駕駛環境裏視頻必要面臨好多困難 ,面對有衆多的攝像頭 ,模型要维持多個攝像頭的時空一致性 。好比說面對車牌、路路的限行情况 ,各個攝像頭裏的內容應該是一致的 。另表 ,還有空間的幾何關係得是一致的 ,這樣天生的視頻才可能有效的用作自動駕駛的訓練和測試 。


基於此 ,我們能够針對剛剛提到的打車Cut-in場景改變各種身分 ,好比換分歧的天氣條件、分歧的路路路形、插入的大車車型、車速和Cut-in的距離 。有了這些之後 ,模型齐全能够做到舉一反十、反一百、反一千 。并且各人能够看到 ,這裏一鍵天生了越发複雜的場景 ,例如車禍和碰撞的場景 。


在這裏我們還必要對場景裏面的各種身分做到肆意編輯 ,好比肆意替換分歧的車型、增长車輛、削减相應的車輛 ,模擬分歧的駕駛環境 。


并且模型也必要可能做到實時的推理 ,這裏我們展示的是在上海市區場景 ,在這個場景裏能够自由地開車、加减速、轉彎 。各人所看到的這些視頻都與真實世界的物理環境极度靠近 。


世界模型産品化 ,開放API後 ,用戶能够描述他所想採用的數據 ,然後一鍵天生形成各種各樣所等待的視頻 。我們現在積累的百萬級數據集 ,覆蓋各種複雜的場景 ,可能實現高保真 ,F如今每一個Clips有150s ,車輛有7個攝像頭就能维持比1080P更好的圖像質量 。


再說到基礎設施 ,現在各地当局也成立了實訓場 ,可能提供算力的平台 ,真實採集實車的數據 。另表 ,有一半的數據也是通過世界模型模擬仿真進行天生 ,兩組數據相結合能够提供給車企進行端到端模型的訓練 。


最後說下 ,在自動駕駛場景裏使用的世界模型所開發出來的所有技術體系 ,其實也能够用到具身智能裏 。具身智能對世界模型的需要越发火急 。因爲機器人的數量比車輛數量更少 ,并且每個機器人硬件的配置千差萬別 。我們但愿在具身智能領域裏 ,世界模型可能做到多模態、數據對齊 ,可能得到4D空間 ,可能進行急剧的推理 。我給各人舉兩個例子 ,一是輸入一條指令讓機器人可能在公園裏進行跳躍 ,就會自動地天生機器人的骨胳、姿態、動作的變化 ,基於這個可能天生機器人第一視角看到視頻的數據和第三視角的數據 。另表輸入指令讓機器臂切黃瓜 ,同樣能够天生第一和第三視角的數據 。未來我們能够用這些大量的模擬仿真數據 ,來推動自動駕駛和具身智能逾越到下一個階段 。


謝謝各人!


go_top
【网站地图】