亞洲資本網(wǎng) > 資訊 > 要聞 > 正文
騰訊混元開源首個面向世界模型的強化學(xué)習(xí)后訓(xùn)練框架WorldCompass_動態(tài)
2026-03-10 13:36:26來源: IT之家


【資料圖】

IT之家 3 月 10 日消息,騰訊混元 3D 團(tuán)隊今日宣布開源業(yè)界首個面向世界模型的強化學(xué)習(xí)后訓(xùn)練框架 WorldCompass,這是此前發(fā)布的混元世界模型 1.5 官方強化學(xué)習(xí)擴(kuò)展模塊,能夠讓世界模型的交互更加準(zhǔn)確,體驗更好。

WorldCompass 是一個專為長時序、交互式世界模型設(shè)計的強化學(xué)習(xí)(RL)后訓(xùn)練框架。如果說世界模型是引擎,那么 WorldCompass 就是“指南針”,通過引入強化學(xué)習(xí)機制,直接“引導(dǎo)”模型如何更準(zhǔn)確地遵循用戶指令探索世界,并保持長時序的視覺一致性。

實驗表明,WorldCompass 能提升 SOTA 開源世界模型(WorldPlay)的交互準(zhǔn)確率和視覺保真度,特別是在復(fù)雜的組合動作場景下,交互準(zhǔn)確率提升了近 35%。

團(tuán)隊在最新的開源 SOTA 模型 WorldPlay 上進(jìn)行了驗證。結(jié)果顯示,經(jīng)過 WorldCompass 的后訓(xùn)練,模型能力實現(xiàn)了大幅提升。

在最為困難的復(fù)合動作(Combined Action)場景下(例如同時進(jìn)行移動和旋轉(zhuǎn)):基座模型對于復(fù)雜組合式動作序列執(zhí)行的準(zhǔn)確率僅為 20% 左右。使用 WorldCompass 訓(xùn)練后,準(zhǔn)確率提升至 55% 左右,提升幅度超過 35%。對于基礎(chǔ)動作,準(zhǔn)確率也提升了約 10%。

同時,在斯坦福大學(xué)世界模型 Benchmark WorldScore 上,WorldCompass 取得了更好的評分:

WorldCompass 已在混元 WorldPlay 模型上得到驗證,相關(guān)代碼和模型細(xì)節(jié)已開源。IT之家附開源地址如下:

關(guān)鍵詞: 時序 騰訊 強化學(xué)習(xí) 混元開源 知名企業(yè)

專題資訊
  • 中國移動煥新國際品牌“CMobile”擘畫全球新藍(lán)圖
  • AI+”賦能向新篤行!黑龍江移動亮相新博會為新材料產(chǎn)業(yè)發(fā)展強基提效
  • 黑龍江移動攻堅克難 助力哈爾濱地鐵邁入5G時代
  • 黑龍江移動數(shù)字賦能聚合力 助石墨之城產(chǎn)業(yè)升級
  • 媒體龍江行丨黑龍江移動算力基礎(chǔ)設(shè)施建設(shè)實現(xiàn)“硬底座”與“軟中樞”雙突破
  • 塑凈新生技術(shù)攻堅破局 PVC廢料高值再生重塑行業(yè)發(fā)展格局
最近更新

京ICP備2021034106號-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com