2026-06-13 21:43:37
6月13日,智源研究院理事長黃鐵軍回應(yīng)了世界模型相關(guān)爭議。他認(rèn)為VLA與世界模型不矛盾,企業(yè)采用VLA是現(xiàn)實(shí)選擇,而世界模型目標(biāo)是打造通用大腦。構(gòu)建完整世界模型路途漫長,更現(xiàn)實(shí)的是讓機(jī)器人獲得常識能力。
每經(jīng)記者|可楊 每經(jīng)編輯|杜宇
世界模型正在成為當(dāng)前人工智能產(chǎn)業(yè)出現(xiàn)頻率最高的關(guān)鍵詞之一,越來越多的研究機(jī)構(gòu)和企業(yè),開始將世界模型視為下一階段人工智能競爭的重要方向。
與此同時(shí),圍繞世界模型究竟是什么、與當(dāng)前主流的VLA路線有何區(qū)別、又將依靠什么樣的數(shù)據(jù)繼續(xù)進(jìn)化等問題,行業(yè)內(nèi)仍存在諸多爭議。6月13日,在接受包括《每日經(jīng)濟(jì)新聞》記者在內(nèi)的媒體采訪時(shí),智源研究院理事長、北京大學(xué)計(jì)算機(jī)學(xué)院教授黃鐵軍系統(tǒng)回應(yīng)了這些問題。
在黃鐵軍看來,當(dāng)前大量企業(yè)采用VLA路線推動(dòng)具身智能落地,與世界模型的發(fā)展并不矛盾。對于產(chǎn)業(yè)而言,成熟技術(shù)解決具體問題是一種現(xiàn)實(shí)選擇。但如果將來出現(xiàn)一個(gè)通用大腦作為基座,支撐垂直模型解決各個(gè)領(lǐng)域的問題,那么通用世界模型將會(huì)扮演這樣一個(gè)角色。
智源研究院理事長黃鐵軍 圖片來源:主辦方供圖
隨著具身智能成為資本和產(chǎn)業(yè)共同追逐的熱點(diǎn),VLA(Vision-Language-Action)路線已經(jīng)迅速成為行業(yè)主流之一,大量具身智能企業(yè)都依靠這一路線推動(dòng)具身智能落地應(yīng)用。
面對這一趨勢,外界也開始產(chǎn)生一個(gè)問題:既然VLA已經(jīng)能夠解決很多現(xiàn)實(shí)問題,世界模型是否還有必要?
在黃鐵軍看來,兩者本質(zhì)上并不構(gòu)成競爭關(guān)系。企業(yè)采用VLA,是因?yàn)檫@是一條已經(jīng)被證明能夠解決現(xiàn)實(shí)問題的路徑。在制造、搬運(yùn)、抓取等特定場景中,現(xiàn)有大模型技術(shù)已經(jīng)具備相當(dāng)程度的可用性。但從研究機(jī)構(gòu)的角度來看,如果目標(biāo)是打造能夠像人一樣在不同環(huán)境中行動(dòng)、解決不同問題的具身智能,僅靠針對具體任務(wù)訓(xùn)練出來的能力遠(yuǎn)遠(yuǎn)不夠。
“人腦就是一個(gè)小宇宙,人類其實(shí)對這個(gè)世界是有一個(gè)模型的,我們在做什么事的時(shí)候,有一個(gè)基本的判斷依據(jù)。”黃鐵軍認(rèn)為,真正意義上的世界模型不僅要理解物體運(yùn)動(dòng)、空間關(guān)系等基礎(chǔ)規(guī)律,還要理解材料性質(zhì)、環(huán)境變化以及人與人之間復(fù)雜交互后的因果關(guān)系。
黃鐵軍表示,機(jī)器人面對的不只是搬箱、抓取物體這類簡單任務(wù),還會(huì)涉足災(zāi)害救援、極端環(huán)境作業(yè)等高度開放的復(fù)雜場景。
例如,當(dāng)機(jī)器人面對火災(zāi)現(xiàn)場時(shí),人類會(huì)本能地避開火焰,因?yàn)槿梭w無法承受高溫,但機(jī)器人如果能夠判斷自身材料不會(huì)被融化,就可能作出完全不同的決策。
對于世界模型的發(fā)展速度,黃鐵軍認(rèn)為,如果目標(biāo)是構(gòu)建一個(gè)能夠掌握物理、化學(xué)、生物乃至社會(huì)運(yùn)行規(guī)律的完整世界模型,這仍然是一條非常漫長的道路。因?yàn)槿祟愖陨韺κ澜绲恼J(rèn)知在不斷擴(kuò)展,“把所有的科學(xué)知識、生物的、化學(xué)的、生命的所有都希望這個(gè)世界模型能裝進(jìn)去,是一個(gè)長遠(yuǎn)的、理想的目標(biāo)”。
相比之下,更現(xiàn)實(shí)的目標(biāo)是讓機(jī)器人先獲得類似普通人的常識能力,“未來兩三年,能跟人日常工作相比的這樣一個(gè)世界模型,是有可能出來的”。
與此同時(shí),黃鐵軍還特別強(qiáng)調(diào)了另一個(gè)經(jīng)常被忽視的問題,即效率。在他看來,從世界模型的角度,一方面追求功能完備,另一方面要求其在低功耗狀態(tài)下,做到操作精準(zhǔn)、反應(yīng)靈敏。
如果說世界模型的目標(biāo)是理解現(xiàn)實(shí)世界,那么支撐其成長的核心資源仍然是數(shù)據(jù)。不過,在黃鐵軍看來,世界模型時(shí)代的數(shù)據(jù)邏輯正在發(fā)生變化。
過去幾年,大模型的發(fā)展主要依賴靜態(tài)數(shù)據(jù)集。企業(yè)通過采集數(shù)據(jù)、構(gòu)建數(shù)據(jù)集,再進(jìn)行離線訓(xùn)練,從而不斷提升模型能力,這種模式推動(dòng)了語言模型和多模態(tài)模型的快速發(fā)展,但在世界模型階段,單純依賴靜態(tài)數(shù)據(jù)已經(jīng)難以滿足需求。
黃鐵軍認(rèn)為,數(shù)據(jù)本身就是對環(huán)境的一種不完備的表達(dá),當(dāng)前,數(shù)據(jù)這個(gè)概念本身有些過于靜態(tài),“我們甚至可以把數(shù)據(jù)這個(gè)詞再稍微推廣一點(diǎn),生物正是通過與環(huán)境交互,獲取進(jìn)化所需的信息”。在人類認(rèn)知世界的過程中,知識并不僅僅來自書本,更多時(shí)候,人是在與環(huán)境持續(xù)互動(dòng)中形成認(rèn)知。踢球、游泳、彈琴,甚至每天的工作和生活,本質(zhì)上都在不斷獲取新的信息。
因此,黃鐵軍認(rèn)為,在世界模型階段,實(shí)時(shí)交互性的數(shù)據(jù)會(huì)越來越多,耳機(jī)、智能眼鏡等可穿戴設(shè)備的發(fā)展,將推動(dòng)這一變化加速發(fā)生。用戶看到什么、聽到什么、說了什么,都可能被實(shí)時(shí)記錄下來,并同步成為智能體理解環(huán)境的一部分,“你看見了他也看見了,你不要把你看見的東西翻譯給他”。
當(dāng)這種同步感知成為常態(tài)時(shí),人們的工作和生活過程實(shí)際上正在被數(shù)字化,而這些第一視角、實(shí)時(shí)同步的數(shù)據(jù),也將成為訓(xùn)練世界模型的重要資源。
這一判斷背后,實(shí)際上對應(yīng)著數(shù)據(jù)采集模式的改變。
當(dāng)前不少機(jī)器人企業(yè)仍在建設(shè)專門的數(shù)據(jù)采集中心,通過遙操作、人工示范等方式獲取訓(xùn)練數(shù)據(jù)。黃鐵軍認(rèn)為,從長期來看,這未必是成本最合理的方式。相比之下,讓工人在正常工作過程中佩戴設(shè)備同步采集數(shù)據(jù),或者讓用戶在使用智能體服務(wù)過程中自然產(chǎn)生數(shù)據(jù)等模式也需要探索,“我相信穿戴式的這些傳感器會(huì)越來越多,會(huì)對未來的更多的數(shù)據(jù)產(chǎn)生提供一個(gè)重要的來源”。
過去半年,以Anthropic為代表的科技公司正在不斷強(qiáng)化代碼能力建設(shè),Claude Code等產(chǎn)品引發(fā)產(chǎn)業(yè)關(guān)注。
“代碼本身邏輯性肯定是比自然語言要強(qiáng),這是設(shè)計(jì)計(jì)算機(jī)語言編程的重要原因,所以它肯定是對大語言模型的性能是有重要影響的?!秉S鐵軍表示,Anthropic在其部分的模型訓(xùn)練中,代碼數(shù)據(jù)占比已經(jīng)達(dá)到極高水平,其中不僅包括開源代碼,還包含大量經(jīng)過長期迭代的高質(zhì)量商業(yè)軟件代碼。
黃鐵軍坦言,很多人最初關(guān)注代碼數(shù)據(jù),是為了提升模型性能,卻忽視了Coding本身巨大的產(chǎn)業(yè)價(jià)值,這是需要反思的問題。
黃鐵軍表示,今天社會(huì)運(yùn)行的底層已經(jīng)越來越依賴數(shù)字系統(tǒng)。電網(wǎng)、金融系統(tǒng)、企業(yè)管理軟件乃至互聯(lián)網(wǎng)服務(wù),本質(zhì)上都是由代碼構(gòu)成的數(shù)字世界。相比受制于硬件、傳感器和現(xiàn)實(shí)環(huán)境的具身智能,數(shù)字世界的重構(gòu)門檻更低、見效更快。
在他看來,這也是OpenAI、Anthropic等現(xiàn)階段持續(xù)強(qiáng)化Coding能力的重要原因。
封面圖片來源:主辦方供圖
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
共筑可信生態(tài) AI內(nèi)容生態(tài)與負(fù)責(zé)任GEO治理研討會(huì)召開在即
AI內(nèi)容生態(tài)與負(fù)責(zé)任GEO治理研討會(huì)今天舉行
40余家知名機(jī)構(gòu)在京成立財(cái)經(jīng)信源共建聯(lián)盟 全國首個(gè)財(cái)經(jīng)GEO標(biāo)準(zhǔn)立項(xiàng)啟動(dòng)
智能經(jīng)濟(jì)新形態(tài):全球領(lǐng)袖齊聚日內(nèi)瓦共謀未來 IAICE2026智能經(jīng)濟(jì)國際咨詢圓桌會(huì)議在瑞士日內(nèi)瓦召開
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP