- 資訊與博客
72倍推理提速、7分鐘長視頻天生!大曉機器人開源實時天生世界模型 Kairos 3.0-4B
近日,大曉機器人沉磅開源開悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作為業內首個實現「多模態理解 — 天生 — 預測」一體化的開源具身原生世界模型,該模型以「物理因果一致、跨本體泛化、超長時交互、雲側實時天生、輕量化高效力、端側本體节造」為主题優勢,机能全面領跑中國及海表主流具出身界模型。
Kairos 3.0-4B 是全球首個可端側驅動具身人为智能本體节造的世界模型,也是行業內首個在 THOR 端側平台達成 1:1.5(視頻天生時間:視頻時長)實時天生的具出身界模型。該模型部署於Jetson Thor T5000 端側平台,算力可達517 TFlops,不僅能在 3D 仿真環境中精準天生機械臂運動形態、实现運動軌跡迪階測與規劃,更可依託 THOR 端側平台實現機器人本體的真實驅動與作業執行,讓機器人真正從「會表演」走向「能幹活」。
在全球權威具身人为智能 Benchmark 評測中,Kairos 3.0-4B 各項指標全面領先。在 A800 GPU Benchmark 中,基於模型能力和推理工具,Kairos 3.0-4B 的推理速度較 Cosmos 2.5 提升 72 倍,刷新全球具出身界模型机能紀錄,充分驗證了其硬核技術實力。
Kairos 3.0-4B 兼具通用世界模型能力與具身場景深度賦能優勢。在通用場景下,該模型可天生高度還原的真實物理世界,以黃果樹瀑布為例,其能精準呈現天然光影成效,支持流暢運鏡且無畫面跳幀,雲、水、葉片等元素均可實現動態演化;同時,模型深度適配具身人为智能需要,憑藉雙沉能力买通數字仿真與物理執行,以中國自研主题技術破解行業主题痛點,為具身人为智能規;涞靥峁┲魈庖,成為具備全球競爭力的具出身界模型標杆。
以原生世界模型架構,築牢具身人为智能對物理世界的底層認知
當前,具身人为智能行業深陷數據稀缺且割裂的困境,傳統天生式模型僅側沉視頻天生,不足對物理世界的深度認知,因而面臨長時序交互不及、部署算力成本高昂、狀態預測物理一致性差等行業瓶頸。
作為業內首個實現「多模態理解 — 天生 — 預測」一體化的開源具身原生世界模型,Kairos 3.0-4B 與市面上「大模型改款」的天生式模型有著本質區別。該模型並非在大語言或視覺模型後簡單附加運動接口,而是從架構底層為機器人在真實世界的運行進行設計,以天然界根基物理規律與因果規律為認知根基,構建起跨本體的統一世界理解框架,徹底突破傳統具身人为智能「行為仿照」的技術局限,將模型能力升級至「物理級深度理解」的全新維度。

圍繞「理解世界、天生世界、預測世界」三大主题能力,Kairos 3.0-4B 將物理規律與因果思維鏈深度嵌入模型決策過程,讓模型做到「知其然更知其所以然」。其主题突破在於深度融合機器人真機交互、人類行為結構化與思維鏈文本三類關鍵數據,有效突破多元數據壁壘,大幅提升真實世界數據的複用效能,顯著優化具身人为智能的尺度定律效能。

得益於原生架構的優勢,該模型不再依賴昂貴且稀缺的真機數據,而是通過內化物理規律、推演因果邏輯,在更優的模型與數據規模下,實現強泛化、長時序推理與靠得住的端側部署。它能精準解析物體受力、沉心、摩擦等物理約束,实现複雜任務的推理、規劃與可行性分析,兼容多模態感測器指令,高效理解機器人動作與人類行為邏輯,實現從「執行指令」到「理解任務」的本質逾越。
在複雜交互場景的實測中,機器人可平穩端起盛有水的託盤,運動過程中水面呈現天然真實的水波動態;將託盤搁置桌面後,模型憑藉任務思維鏈自主規劃,精準判斷牛奶蘋果的擺放地位,有序將物品規整搁置於託盤之上。
物理因果一致性全面領先全球主流模型
在倒水、疊平衡石等拥有肯定難度的物理交互場景中,Kairos 3.0-4B 憑藉原生世界模型的物理因果一致性優勢,通過內化物理規律與因果思維鏈,實現了物理因果一致性全面領先主流具出身界模型,展現出對真實世界規則的深度理解與精準復現。
在倒水場景中,Kairos 3.0-4B 节造機器人將水從水杯倒入水槽時,水流速度平穩且液體總量嚴格匹配水杯容量,齐全切合質量守恆與流體動力學規律;而 Cosmos 2.5 與 Lingbot 在該場景中則出現水流速度過快的問題,甚至出現液體總量遠超水杯實際容量的異常情況,物理邏輯嚴沉失真。
在疊平衡石場景中,Kairos 3.0-4B 精準復現了石頭的剛性與力學平衡个性,每一塊石頭的堆疊都嚴格遵循沉力與支撐結構的物理規律;Cosmos 2.5 天生的石頭出現懸浮現象,Lingbot 的石頭則喪失剛性屬性,最底層的石頭甚至憑空隐没,物理一致性徹底崩塌。
7分鐘長時連貫場景動態交互
在具身人为智能領域,長時序視頻天生始終是造約技術落地的主题瓶頸。
憑藉「多模態理解 — 天生 — 預測」一體化架構,大曉機器人推出的 Kairos 3.0-4B,可結合Agent智能體技術,在長時序視頻天生能力上實現顛覆性突破。Kairos智能體可將用戶複雜交互指令進行層級化解析與結構化拆解,依託模型對序列間的時空演化、物理規則、場景動態及交互邏輯精細化預測,補全連續世界信息,並通過自我反思機造實現閉環迭代優化。最終天生長達 7 分鐘的具身動態交互視頻,且全程维持場景連貫與物理真實,為具身人为智能的訓練與落地開闢了全新路徑。
在家庭場景 Demo 中,機器人實現全流程一鏡到底的自主作業:吓仔序整顿桌面上的杯子與紙巾盒,規劃合適地位擺放物品,隨後自主進入洗衣機,撿拾衣服,打開洗衣機、完裁缝物投放與洗濯操作;接著穿過客廳進入廚房,開啟冰箱取出牛奶,打開壁櫥取出麥片,並打開抽屜取出碗與勺子,將麥片和牛奶倒入碗中,自主实现早餐製備。整個過程無斷點,真實展現了模型的流暢動態交互、物體屬性識別、切合物理規則的受力操控、柔性衣物物理表徵能力,並依託齐全任務思維鏈實現多場景自主規劃與連貫執行,驗證了模型在複雜家居環境下的物理認知、長時序推理與動態交互能力,後續將持續提升超精細操作能力。
這一能力讓具身人为智能能夠從容應對多場景下的複雜動態任務。無論是工業製造中的長流程裝配,還是家庭服務中的持續交互,Kairos 3.0-4B 都能天生連貫、真實的場景模擬,顯著提升模型的泛化能力與部署靠得住性,推動具身人为智能從實驗室走向產業一線。
以輕量化實現高效力推理速度
Kairos 3.0-4B 模型憑藉架構創新與技術突破,在推理效能、算力亏损、部署適配三大維度均實現業界領先,同時徹底突破具身人为智能端側實時部署的主题瓶頸。
Kairos 3.0-4B 在行業內率先實現雲側 1:1 實時推理,推理速度較 Cosmos 2.5 提升 72 倍。同時,它也是行業首個在 THOR 平大驾側部署的具出身界模型,可在端側實現高效實時推理。依託端側部署,模型可直接輸出機器人從上肢得手指再到下肢的全方位节造指令,省去中間轉譯環節,讓機器人「想到即可做到」。
在 A800 GPU 机能 Benchmark 中,Kairos 3.0-4B 憑藉自研的混合時間線性把稳力算子,實現了算力效能與推理速度的數量級突破,机能全面碾壓主流具出身界模型。
推理速度上,Kairos 3.0-4B 实现10秒天生任務耗時僅 9.5 秒,比 Cosmos 2.5(687.2 秒)快約 72 倍,比 Wan 2.2(85 秒)快約 9 倍,比 Lingbot(1436 秒)快約 151 倍。
Kairos 3.0-4B 以 4B 輕量化參數實現 23.5GB 顯存占用,與 5B 的 Wan 2.2 相當,遠低於 14B 的 Cosmos(70.2GB)和 28B 的 Lingbot(46.1GB),在维持極致机能的同時,大幅降低部署門檻,美满適配具身人为智能端側實時推理需要,突破「大參數 = 高机能」的行業固有認知。

Kairos 3.0-4B 憑藉極低的算力亏损與顯存占用,在單卡、多卡環境下均實現業界領先的實時推理速度,美满適配英偉達、沐曦、海光、壁仞等多款 GPU。其高效力个性可直接滿足具身人为智能系統低延遲、高靠得住、端側實時部署的需要,無需依賴昂貴的真機數據,即可實現強泛化與靠得住部署。
一腦多形,實現多本體泛化新高度
Kairos 3.0-4B 模型另一大主题優勢是強大的多本體泛化能力,徹底破解了傳統具身模型「一本體一訓練」的行業痛點,實現「统一大腦適配多本體、多任務」的高效落地。
Kairos 3.0-4B 支持跨本體任務一鍵天生,可無縫適配單臂、雙臂、靈巧手等分歧形態的機器人本體,針對统一任務無需額表訓練,即可急剧天生適配各本體的執行战术,實現世界知識的高效共享與遷移,適配性拉滿。在硬件兼容上,模型深度支持智元 - 精靈 G1、松靈 - PIPER、宇樹 G1 等主流機器人硬件,突破分歧廠商、分歧形態設備的本體壁壘。
權威Benchmark机能全面領跑
Kairos 3.0-4B 模型在全球權威具身人为智能與世界模型評測基準中展現出壓倒性的綜合机能,在具身場景實現全面領跑,精準驗證了其「物理級深度理解 + 高效力架構」的主题優勢。
在具身場景中,Kairos 3.0-4B 在三項權威 Benchmark 中均實現机能領跑:
PAI-Bench-robot(物理 AI 具身綜合基準):由佐治亞理工學院與卡內基梅隆大學聯合開發,是物理 AI 領域首個針對具身場景的綜合評測框架,覆蓋 2808 個真實世界案例,被全球頂尖團隊廣泛採用。
Kairos 3.0-4B以80.03分領跑,全面超过 Cosmos 2.5-2B(78.3 分)、阿里Wan 2.2-5B(78.6 分)、Cosmos 2.5-14B(79.4分)及螞蟻 Lingbot(79.96分),驗證了其在具身任務執杏注物理交互穩定性上的行業第一职位。
WorldModelBench-robot TI2V(文本到具身視覺天生基準):在CVPR 2025 Workshop提出,是首個專門評估世界模型文本到具身視覺天生能力的基準,通過 67K 人類標註數據精準檢測物理一致性與指令遵循能力。
Kairos 3.0-4B以9.08分超过所有競品,顯著領先阿里Wan 2.2-5B(8.52分)、Cosmos 2.5-14B(8.94分),以及Cosmos 2.5-2B、螞蟻Lingbot(均為9.04分),證明其在長時序物理場景理解與天生精度上迪隝先性。
DreamGen Bench (PA/IF)(機器人視頻天生基準):由 NVIDIA GEAR Lab 開發,通過物理對齊(PA)與交互保真(IF)兩項主题指標,直接評估模型天生數據的物理合理性與交互質量,是機器人領域的權威評測工具。
Kairos3.0-4B的PA得分為0.529,大幅領先阿里Wan 2.2-5B(0.314),提升近70%;同時領先Cosmos 2.5-2B(0.418)、Cosmos 2.5-14B(0.495)、螞蟻Lingbot(0.466),分別提升27%、7% 和14%。IF得分為0.609,同樣全面超过競品,相較於Cosmos 2.5-2B、阿里Wan2.2-5B、Cosmos 2.5-14B、螞蟻Lingbot,分別提升7%、12%、27%和7%,直接驗證了其物理因果一致性的主题優勢。

*(上述精度測試基於開源模型復現,其中robot為對應具身子集的結果)
作為中國自研的原生具出身界模型,Kairos 3.0-4B 直擊行業數據、算力、物理推理與落地部署等主题瓶頸。該模型既可作為高效數據仿真器,低成本、規;糯笥柧殧祿體量,有效破解真機交互數據稀缺的行業痛點;更能跳出純仿真應用範疇,直接驅動機器人本體实现各類實體任務,真正买通從虛擬仿真到物理執行的全鏈路,讓機器人擁有聰明的「大腦」,加快具身人为智能智慧躍遷,為具身人为智能的規;涞靥峁┲魈饧夹g支撐,為全球具身人为智能行業發展貢獻了領先的中國规划。
該技術成就已上傳:
Code:
https://github.com/kairos-agi/kairos-sensenova
Hugging Face:
https://huggingface.co/kairos-agi/kairos-sensenova-common






返回