中國資本網(wǎng) > 熱點(diǎn) > 正文
沙利文發(fā)布《2025年中國世界模型發(fā)展白皮書》
2025-09-23 09:46:19來源: 今日熱點(diǎn)網(wǎng)

世界模型正走向復(fù)雜智能行為生成的關(guān)鍵過渡期,正成為推動(dòng)物理AI與虛擬世界融合的關(guān)鍵基礎(chǔ)設(shè)施,助力中國在全球AI競爭中占據(jù)領(lǐng)先地位。當(dāng)前,世界模型在自動(dòng)駕駛領(lǐng)域正從研發(fā)測(cè)試走向量產(chǎn)賦能,通過生成海量高保真場景,推動(dòng)自動(dòng)駕駛系統(tǒng)持續(xù)學(xué)習(xí)、自主驗(yàn)證并快速迭代優(yōu)化,驅(qū)動(dòng)L3/L4系統(tǒng)落地,大幅降低實(shí)車測(cè)試成本與時(shí)間。在具身智能領(lǐng)域,世界模型則作為合成數(shù)據(jù)引擎,破解物理交互數(shù)據(jù)短缺瓶頸,為機(jī)器人提供高效、安全的虛擬訓(xùn)練環(huán)境,加速其適應(yīng)真實(shí)世界任務(wù)。兩大應(yīng)用均凸顯世界模型通過仿真與生成,推動(dòng)AI從感知向行動(dòng)閉環(huán)演進(jìn)的核心價(jià)值。

本報(bào)告聚焦“世界模型”(World Models)這一前沿人工智能技術(shù),分析其發(fā)展現(xiàn)狀、技術(shù)路徑、市場格局及未來趨勢(shì)。世界模型是理解現(xiàn)實(shí)世界動(dòng)態(tài) (包括其物理和空間屬性) 的生成式 AI 模型。它們使用文本、圖像、視頻和運(yùn)動(dòng)等輸入數(shù)據(jù)來生成視頻。通過學(xué)習(xí),它們能夠理解現(xiàn)實(shí)世界環(huán)境的物理特性,從而對(duì)運(yùn)動(dòng)、應(yīng)力以及感官數(shù)據(jù)中的空間關(guān)系等動(dòng)態(tài)進(jìn)行表示和預(yù)測(cè),加速物理AI的虛擬世界生成,生成可擴(kuò)展的增強(qiáng)型數(shù)據(jù),從而消除數(shù)據(jù)瓶頸,實(shí)現(xiàn)更高效的基礎(chǔ)模型訓(xùn)練。本白皮書的研究目的在于全面梳理世界模型的發(fā)展歷程、現(xiàn)狀、核心技術(shù)及其在智能駕駛、具身智能中的應(yīng)用,并通過對(duì)不同廠商能力的對(duì)比分析,探討世界模型未來的發(fā)展趨勢(shì)。

01

2025年世界模型:從感知現(xiàn)實(shí)到?jīng)Q策未來的AI躍遷

世界模型(World Models)作為一種生成式AI模型,其核心在于通過構(gòu)建內(nèi)部表征來理解真實(shí)世界的動(dòng)態(tài)規(guī)律(包括物理特性與空間屬性),并借助多模態(tài)輸入(文本、圖像、視頻、運(yùn)動(dòng)數(shù)據(jù)等)生成視頻內(nèi)容,實(shí)現(xiàn)對(duì)現(xiàn)實(shí)環(huán)境物理屬性的理解并通過生成環(huán)境及動(dòng)作,從而模擬、指導(dǎo)及實(shí)施決策。World Labs創(chuàng)始人、斯坦福大學(xué)教授李飛飛指出“世界模型不僅應(yīng)當(dāng)感知和建模現(xiàn)實(shí)世界,還應(yīng)具備展望可能存在的未來狀態(tài)的能力,從而為決策提供指導(dǎo)。”然而在發(fā)展與現(xiàn)狀方面,世界模型仍處于早期階段,大多集中在感知層面的模擬與壓縮,尚未真正實(shí)現(xiàn)“感知-預(yù)測(cè)-決策”一體化的穩(wěn)定閉環(huán)。盡管在自動(dòng)駕駛領(lǐng)域已有試點(diǎn)應(yīng)用,但多依賴特定環(huán)境與強(qiáng)先驗(yàn),不具備通用性與長期泛化能力。未來的發(fā)展方向?qū)⒓性谌齻€(gè)方面:一是通過多模態(tài)輸入增強(qiáng)對(duì)世界狀態(tài)的理解;二是引入因果建模與可控生成機(jī)制,提升預(yù)測(cè)準(zhǔn)確性與行為規(guī)劃能力;三是將世界模型與具身智能系統(tǒng)深度融合,實(shí)現(xiàn)從“觀察世界”到“理解并參與世界”的躍遷。

資料來源:沙利文分析,頭豹研究院02

不同世界模型廠商根據(jù)其自身戰(zhàn)略與不同維度的技術(shù)優(yōu)勢(shì),打造獨(dú)特的世界模型能力及相關(guān)產(chǎn)品

世界模型的技術(shù)能力建立在四大支柱之上。因果推理能力 (Causal Reasoning): 使AI能夠回答“如果A發(fā)生,B會(huì)怎樣?”的假設(shè)性問題,理解動(dòng)作與結(jié)果之間的深層因果關(guān)系,從而提升在動(dòng)態(tài)環(huán)境中的自主決策能力。時(shí)空一致性 (Spatiotemporal Consistency): 解決傳統(tǒng)視頻生成中物體扭曲、變形的問題。世界模型通過長期記憶機(jī)制、潛在空間建模、對(duì)象中心表征等技術(shù),在更高維度保持空間結(jié)構(gòu)穩(wěn)定和時(shí)間演化合理,生成穩(wěn)定、連貫的視頻序列。多模數(shù)據(jù)物理規(guī)則描述 (Physical Rule Description): 旨在模擬復(fù)雜的物理現(xiàn)象(如流體運(yùn)動(dòng)、物體碰撞)。世界模型預(yù)測(cè)的是遵循基本3D幾何和物理規(guī)則的3D場景結(jié)構(gòu),而非簡單像素,從而避免了“夢(mèng)境般”的不真實(shí)感,為后續(xù)交互奠定基礎(chǔ)。執(zhí)行與實(shí)時(shí)反饋 (Execution & Real-time Feedback): 通過與強(qiáng)化學(xué)習(xí)結(jié)合,實(shí)現(xiàn)“感知→建?!?guī)劃→執(zhí)行→感知更新→模型修正”的動(dòng)態(tài)循環(huán)。低延遲的實(shí)時(shí)反饋是實(shí)際應(yīng)用的基礎(chǔ),可通過輕量化技術(shù)與潛空間狀態(tài)生成實(shí)現(xiàn)。

行業(yè)通常采用FID、FVD、幀率、時(shí)長和一致性等指標(biāo)來量化評(píng)估其性能。不同世界模型廠商根據(jù)其自身戰(zhàn)略與不同維度的技術(shù)優(yōu)勢(shì),打造獨(dú)特的世界模型能力及相關(guān)產(chǎn)品。目前,技術(shù)路徑主要分為生成式與非生成式兩類,國際廠商如英偉達(dá)(COSMOS)、谷歌(Genie3)和Meta(V-JEPA2)推出了領(lǐng)先模型,而商湯(絕影開悟) 憑借其“首個(gè)高分辨率與稀疏控制的多視世界模型”等創(chuàng)新,在技術(shù)指標(biāo)對(duì)比中與這些國際巨頭同臺(tái)競技,成為平臺(tái)賦能型的代表廠商。

資料來源:沙利文分析,頭豹研究院03

當(dāng)前超過80%自動(dòng)駕駛算法使用世界模型進(jìn)行輔助訓(xùn)練,世界模型推動(dòng)自動(dòng)駕駛系統(tǒng)持續(xù)學(xué)習(xí)、自主驗(yàn)證并快速迭代優(yōu)化。

當(dāng)前,超過80%自動(dòng)駕駛算法使用世界模型進(jìn)行輔助訓(xùn)練。世界模型能通過生成多層復(fù)雜要素結(jié)合的場景,將傳統(tǒng)算法難以覆蓋的“高動(dòng)態(tài)+高不確定性”場景轉(zhuǎn)化為可控問題,助力自動(dòng)駕駛系統(tǒng)在產(chǎn)品性能和市場表現(xiàn)的雙重升級(jí)。一方面,世界模型能夠快速生成海量高保真場景,覆蓋長尾與極端事件,顯著增強(qiáng)系統(tǒng)魯棒性與安全保障。另一方面,世界模型通過高效仿真替代真實(shí)路測(cè),不再依賴昂貴標(biāo)注和地圖數(shù)據(jù),在降低研發(fā)成本體系的同時(shí)推動(dòng)產(chǎn)品快速迭代和市場拓展。其通過構(gòu)建“真實(shí)數(shù)據(jù)→模型訓(xùn)練

→仿真場景驗(yàn)證→模型部署”的閉環(huán)反饋機(jī)制,并提供統(tǒng)一的潛在世界狀態(tài)表征,從而為感知、預(yù)測(cè)、規(guī)劃、控制等模塊提供一致的認(rèn)知語境。因此,世界模型能夠推動(dòng)自動(dòng)駕駛系統(tǒng)持續(xù)學(xué)習(xí)、自主驗(yàn)證并快速迭代優(yōu)化,從而顯著提升端到端自動(dòng)駕駛表現(xiàn)。世界模型是突破L4(如Robotaxi等)規(guī)?;渴鹌款i的加速器,是構(gòu)成自動(dòng)駕駛智能體走向類人認(rèn)知與判斷模式的關(guān)鍵基礎(chǔ)。

資料來源:沙利文分析,頭豹研究院04

世界模型是重塑具身智能開發(fā)范式的核心引擎,為具身智能提供高質(zhì)量、低成本、易擴(kuò)展的合成數(shù)據(jù)生成路徑,解決當(dāng)前數(shù)據(jù)瓶頸,未來世界模型將成為具身智能的“認(rèn)知核心”

具身智能代表著AI從純粹的信息處理轉(zhuǎn)向物理世界的交互。其核心痛點(diǎn)在于物理交互數(shù)據(jù)的“千倍級(jí)缺口”,缺口超過99%。具身智能所需的數(shù)據(jù)需要整合文本指令、 多視角視覺、關(guān)節(jié)運(yùn)動(dòng)軌跡及物理交互等多維信號(hào),復(fù)雜度遠(yuǎn)超純文本或單一視覺模態(tài)。采集真實(shí)的物理交互數(shù)耗時(shí)長成本高,使得技術(shù)研發(fā)速度嚴(yán)重滯后。而世界模型能生成視覺逼真、物理精確的合成數(shù)據(jù),有效克服了傳統(tǒng)仿真數(shù)據(jù)與真實(shí)世界之間的差異。同時(shí)能夠大幅降低數(shù)據(jù)獲取的時(shí)間和經(jīng)濟(jì)成本,并輕松實(shí)現(xiàn)數(shù)據(jù)規(guī)模的擴(kuò)展。通過世界模型生成的海量、多樣化合成數(shù)據(jù)進(jìn)行訓(xùn)練,能顯著提升具身智能模型在未知環(huán)境中的適應(yīng)能力和任務(wù)執(zhí)行成功率。

當(dāng)前,自動(dòng)駕駛領(lǐng)域的世界模型應(yīng)用成熟度高于具身智能領(lǐng)域;而未來,世界模型將成為具身智能的“認(rèn)知核心”。世界模型不僅為具身智能提供數(shù)據(jù)支持,更正在重塑其整個(gè)開發(fā)范式。世界模型作為平臺(tái)的預(yù)測(cè)與生成引擎,無縫整合了從數(shù)據(jù)合成、算法訓(xùn)練到仿真驗(yàn)證的全流程,形成了一個(gè)高效的閉環(huán)迭代系統(tǒng)。通過提供集成化的工具鏈,消除了自行構(gòu)建基礎(chǔ)設(shè)施的復(fù)雜工程障礙,讓開發(fā)者能專注于算法與應(yīng)用創(chuàng)新,從而大幅提升研發(fā)效率。為“感知-決策-執(zhí)行”全流程提供安全、可解釋的閉環(huán)驗(yàn)證,通過精確模擬物理交互,系統(tǒng)性提升智能體的適應(yīng)性和可靠性。深度整合開發(fā)工具鏈,消除了傳統(tǒng)割裂流程帶來的效率損耗,支持對(duì)主流模型進(jìn)行高效的開發(fā)、訓(xùn)練和性能優(yōu)化。

資料來源:沙利文分析,頭豹研究院05

案例分析:商湯‘開悟世界模型’綜合能力在獨(dú)立第三方及主機(jī)廠中處于領(lǐng)先地位

商湯“開悟”世界模型綜合能力在獨(dú)立第三方及主機(jī)廠中處于領(lǐng)先地位,可以媲美世界領(lǐng)先的世界模型廠商。在智能駕駛方面,商湯為自動(dòng)駕駛廠商提供低成本海量仿真數(shù)據(jù)與極端場景覆蓋,助力加速訓(xùn)練迭代與量產(chǎn)落地。與智己汽車共建端到端數(shù)據(jù)工廠,通過生成高風(fēng)險(xiǎn)長尾場景補(bǔ)足訓(xùn)練和驗(yàn)證數(shù)據(jù),顯著加快智駕量產(chǎn)落地。以及在上海自動(dòng)駕駛實(shí)訓(xùn)場支撐數(shù)據(jù)到模型上車的全鏈路,規(guī)模化生成多視角仿真數(shù)據(jù),降低數(shù)據(jù)成本并提升研發(fā)效率。

此外,商湯構(gòu)建了以商湯“開悟”世界模型為核心引擎的悟能具身智能平臺(tái),實(shí)現(xiàn)視覺感知、精準(zhǔn)導(dǎo)航與多模態(tài)交互,并通過端側(cè)與云側(cè)算力支撐,實(shí)現(xiàn)智能體在真實(shí)環(huán)境中的自主理解與行動(dòng)。該平臺(tái)是首個(gè)支持高分辨率與稀疏控制的多視世界模型,突破了具身智能數(shù)據(jù)合成技術(shù)瓶頸。同時(shí)展現(xiàn)了其領(lǐng)先的合成數(shù)據(jù)能力,支持一鏈生成場景多樣性可控泛化場景要素可控耦合、任意編輯3D技術(shù)控制生成逼真軌跡。


關(guān)鍵詞:

相關(guān)新聞
專題新聞
  • LV推出充氣夾克多少錢?lv是什么檔次?
  • 三星手機(jī)業(yè)務(wù)換帥是哪一年?三星手機(jī)為什么撤出中國?
  • 股票配資是什么意思?個(gè)人做股票配資違法嗎?
  • 數(shù)據(jù)中心機(jī)房是干什么的?idc機(jī)房主要用于哪些工作?
  • 周樂偉接班董明珠真的嗎?格力集團(tuán)是世界500強(qiáng)企業(yè)嗎?
  • 小米技術(shù)委員會(huì)厲害嗎?米家是不是小米旗下的公司?

京ICP備2021034106號(hào)-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com