2025-12-20 23:52:43
12月18日,火山引擎發(fā)布豆包大模型1.8與音視頻創(chuàng)作模型Seedance 1.5 pro,前者面向多模態(tài)Agent場景優(yōu)化,后者實現(xiàn)影視級技術突破?;鹕揭嫔壞P汀岸嗄B(tài)大腦”,提升工具調用、復雜指令遵循等能力。日均token調用量破50萬億的火山引擎也面臨激烈競爭,不過其總裁譚待持開放態(tài)度,強調安全為首要考量。
每經(jīng)記者|李宇彤 每經(jīng)編輯|魏文藝
超萬人報名、現(xiàn)場開場前十分鐘便一座難求。
一方面,年底舉行的火山引擎FORCE原動力大會是字節(jié)跳動AI(人工智能)實力的集中展現(xiàn);另一方面,其火熱程度也映射出整個大模型行業(yè)站在技術拐點前的迫切與躁動。
12月18日,火山引擎正式發(fā)布豆包大模型1.8與音視頻創(chuàng)作模型Seedance 1.5 pro。其中,旗艦模型豆包1.8明確面向多模態(tài)Agent(智能體)場景進行定向優(yōu)化;Seedance 1.5 pro則在影視級敘事張力、細節(jié)捕捉、情緒呈現(xiàn)及音畫同步技術上實現(xiàn)了突破。
如果說春季大會是以技術普惠和分段計價切入市場,那么臨近2025年底,火山引擎正試圖通過提升技術“加速度”,以應對以Agent為核心的下一個競爭階段。
這條賽道上不乏重量級選手。在火山引擎強化其Agent布局的同時,阿里云也在多模態(tài)賽道全力加速:其于9月發(fā)布通義萬相Wan2.5 preview模型,實現(xiàn)了音畫同步生成,并提升了視頻時長與畫質;在12月的“千問”項目中,阿里接入了最新的視頻生成模型萬相2.6。
當對技術突破的期待高漲,AI如何從演示和榜單走向真正驅動千行百業(yè)的生產(chǎn)力?火山引擎此次押注于Agent和多模態(tài),正試圖以更快的技術演進回應這一時代之問。

圖片來源:每經(jīng)記者李宇彤 攝
火山引擎此次大會的核心,是升級了模型的“多模態(tài)大腦”。
據(jù)火山引擎總裁譚待介紹,豆包大模型1.8面向多模態(tài)Agent場景進行了定向優(yōu)化。其工具調用能力、復雜指令遵循能力及OS Agent能力均得到增強,提升了模型在處理復雜任務時的規(guī)劃與執(zhí)行水平。
在多模態(tài)理解方面,1.8版本提升了視覺基礎能力,可低幀率理解超長視頻,并在視頻運動、復雜空間及文檔解析上有所突破。它還原生支持智能上下文管理,能在長任務中智能清理低價值歷史信息,確保多步驟任務穩(wěn)定完成。
測試數(shù)據(jù)印證了這些進步。根據(jù)其公布的評測圖表,豆包1.8在AIME 2025測評集上表現(xiàn)提升,于通用智能體測評BrowserComp中取得全球領先的成績。而在多模態(tài)理解方面,在視覺判斷準確性、空間理解等多項關鍵能力上超越了Gemini 3。

豆包1.8 Agent能力測試結果 圖片來源:企業(yè)供圖
多模態(tài)能力的提升是模型成為復雜代理的關鍵。譚待闡釋了其戰(zhàn)略意義:“多模態(tài)其實代表著模型的應用進入更深的領域?!?/p>
譚待在接受包括《每日經(jīng)濟新聞》記者在內的媒體采訪時指出,現(xiàn)實中的需求輸入常帶有視覺信息,如車載環(huán)境、產(chǎn)品質檢,且工具返回的結果也多為視覺化。要有視覺化的理解才能處理這些工具的結果,這讓模型能像人一樣操作,極大地擴展了適用性?!拔覀兒茉缇鸵庾R到這個(多模態(tài))才是模型真正地成為復雜的Agent(關鍵)?!?/p>
當多模態(tài)理解能力與具體的終端場景結合,便催生了顛覆性的體驗。
譚待以智能汽車座艙的理解提升為例,接入大模型后,系統(tǒng)在能理解“好熱”時就調溫,在說“打開天窗”時就打開遮陽板。甚至能完成憑歌詞搜歌等復雜操作,以及復雜的語音點餐。
他還描繪了一個更具象的未來場景:在導航至目的地時,系統(tǒng)不僅能推薦附近餐館,更能無縫完成車內點餐。他以與瑞幸合作的語音點餐為例展開說明,表示若以后這一能力平移到行車場景中,只需提前告知“在公司樓下幫我點杯咖啡”,抵達后便能直接取餐。
譚待總結道:“這種交互就是完全自然的以Agent的方式,像人一樣跟它交互,它能幫你做各種各樣的事情?!彼J為,這種智能交互將覆蓋手機、汽車乃至各類終端,展現(xiàn)出一個充滿可能性的“智能空間”。
與此同時,這種“多模態(tài)Agent”能力正通過標準化的API(應用程序編程接口)與開發(fā)平臺(AgentKit),快速向更廣闊的硬件與行業(yè)生態(tài)擴散。本次大會上正式宣布的“豆包助手API”,旨在將豆包對話、思考、搜索等核心產(chǎn)品能力打包開放,讓企業(yè)開箱即用,目前首批四項文本能力已上線火山方舟應用實驗室。
目前,火山引擎活躍的生態(tài)已經(jīng)在調用量上有所體現(xiàn)。截至今年12月,豆包大模型日均tokens(大模型處理文本的最小單位)調用量已突破50萬億,較去年同期增長超十倍;同時,有超過百家企業(yè)累計使用量超過1萬億tokens。
但站在日均50萬億tokens調用量的節(jié)點上,火山引擎接下來將面臨的是一個競爭日趨白熱化的市場。
在國內,阿里等對手在多模態(tài)與視頻生成領域緊追不舍。今年9月,阿里發(fā)布通義萬相Wan2.5模型,首次實現(xiàn)音畫同步生成,并顯著提升了視頻時長與清晰度。緊接著在11月,阿里宣布全力進軍AI to C市場,將“通義App”更名為“千問App”。
到了12月,千問App已快速接入迭代后的萬相2.6模型。該版本不僅支持多鏡頭生成、音頻驅動等進階功能,更宣稱實現(xiàn)了Sora2(OpenAI發(fā)布的新一代視頻生成模型)尚未具備的某些能力,力圖在視頻生成的功能全面性上建立競爭優(yōu)勢。此外,其他云廠商與AI公司也在通過價格策略、行業(yè)深度合作等方式爭奪市場份額。
對此,譚待在采訪中表現(xiàn)出一種開放的“競合”觀,他更傾向于將市場視為一個共同做大的蛋糕。在他看來,更多重量級玩家的投入能加速市場教育和基礎設施成熟?!霸蕉嗳诉M來是能夠加速(行業(yè)發(fā)展),能帶來更多的人,更多的想法,我們就能把這個事加速做好?!?/p>
而當被問及如何評估與公認頂尖模型Gemini 3的差距時,火山引擎總裁譚待展現(xiàn)出務實的追趕心態(tài)。他坦言:“你要衡量距離那有差距。”但他更強調動態(tài)的追趕過程,將競爭維度分解為距離、速度與加速度?!拔矣X得加速度我們現(xiàn)在在提升?!弊T待表示:“最終肯定能看到越來越接近?!?/p>
并且,隨著AI能力深入消費電子與企業(yè)核心,安全從技術問題演變?yōu)槭袌鲂湃蔚幕?。豆包手機助手上線后,其安全實踐便成為密集關注的焦點,促使官方兩度作出公開澄清。
對于INJECT_EVENTS(注入權限/注入事件)權限爭議,豆包手機助手于12月3日聲明,該權限是實現(xiàn)自動化操作所必需的系統(tǒng)級能力,需經(jīng)用戶主動授權且已在清單中明確披露,不會代替用戶進行任何敏感授權與操作。
12月13日,豆包手機助手又一次就安全爭議作出回應,稱其采用原生截屏接口,嚴格遵循應用聲明的Secure標記(安全標記),無法截取銀行安全鍵盤等受保護界面的內容。
針對豆包手機助手引發(fā)的安全討論,譚待也在采訪中表示,無論是面向消費者的產(chǎn)品還是企業(yè)級服務,安全都是字節(jié)跳動的首要考量。
此次發(fā)布會上,安全也被置于議程最前端,通過新功能MaaS on AICC(模型即服務基于人工智能機密計算平臺),火山方舟上的所有模型,包括豆包大模型家族和deepseek等開源模型,都可以直接運行在AICC加密環(huán)境中,只需要在火山方舟選擇“機密部署”方式,就可以一鍵開啟各種模型的機密推理服務。
押注Agent是火山引擎給出的戰(zhàn)略答案,最終的檢驗將取決于智能體所創(chuàng)造的實際價值,以及能否在運行全周期中筑牢可靠的安全防線。
免責聲明:本文內容與數(shù)據(jù)僅供參考,不構成投資建議,使用前請核實。據(jù)此操作,風險自擔。
封面圖片來源:每經(jīng)記者 李宇彤 攝
如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP