要聞

豆包1.8殺入多模態(tài)Agent核心戰(zhàn)場在技術追趕、安全大考中火山引擎尋找“加速度”

2025-12-20 23:52:43

12月18日，火山引擎發(fā)布豆包大模型1.8與音視頻創(chuàng)作模型Seedance 1.5 pro，前者面向多模態(tài)Agent場景優(yōu)化，后者實現(xiàn)影視級技術突破?；鹕揭嫔壞Ｐ汀岸嗄B(tài)大腦”，提升工具調用、復雜指令遵循等能力。日均token調用量破50萬億的火山引擎也面臨激烈競爭，不過其總裁譚待持開放態(tài)度，強調安全為首要考量。

每經(jīng)記者｜李宇彤每經(jīng)編輯｜魏文藝

超萬人報名、現(xiàn)場開場前十分鐘便一座難求。

一方面，年底舉行的火山引擎FORCE原動力大會是字節(jié)跳動AI（人工智能）實力的集中展現(xiàn)；另一方面，其火熱程度也映射出整個大模型行業(yè)站在技術拐點前的迫切與躁動。

12月18日，火山引擎正式發(fā)布豆包大模型1.8與音視頻創(chuàng)作模型Seedance 1.5 pro。其中，旗艦模型豆包1.8明確面向多模態(tài)Agent（智能體）場景進行定向優(yōu)化；Seedance 1.5 pro則在影視級敘事張力、細節(jié)捕捉、情緒呈現(xiàn)及音畫同步技術上實現(xiàn)了突破。

如果說春季大會是以技術普惠和分段計價切入市場，那么臨近2025年底，火山引擎正試圖通過提升技術“加速度”，以應對以Agent為核心的下一個競爭階段。

這條賽道上不乏重量級選手。在火山引擎強化其Agent布局的同時，阿里云也在多模態(tài)賽道全力加速：其于9月發(fā)布通義萬相Wan2.5 preview模型，實現(xiàn)了音畫同步生成，并提升了視頻時長與畫質；在12月的“千問”項目中，阿里接入了最新的視頻生成模型萬相2.6。

當對技術突破的期待高漲，AI如何從演示和榜單走向真正驅動千行百業(yè)的生產(chǎn)力？火山引擎此次押注于Agent和多模態(tài)，正試圖以更快的技術演進回應這一時代之問。

圖片來源：每經(jīng)記者李宇彤攝

“多模態(tài)大腦”升級：從能力突破到生態(tài)擴散

火山引擎此次大會的核心，是升級了模型的“多模態(tài)大腦”。

據(jù)火山引擎總裁譚待介紹，豆包大模型1.8面向多模態(tài)Agent場景進行了定向優(yōu)化。其工具調用能力、復雜指令遵循能力及OS Agent能力均得到增強，提升了模型在處理復雜任務時的規(guī)劃與執(zhí)行水平。

在多模態(tài)理解方面，1.8版本提升了視覺基礎能力，可低幀率理解超長視頻，并在視頻運動、復雜空間及文檔解析上有所突破。它還原生支持智能上下文管理，能在長任務中智能清理低價值歷史信息，確保多步驟任務穩(wěn)定完成。

測試數(shù)據(jù)印證了這些進步。根據(jù)其公布的評測圖表，豆包1.8在AIME 2025測評集上表現(xiàn)提升，于通用智能體測評BrowserComp中取得全球領先的成績。而在多模態(tài)理解方面，在視覺判斷準確性、空間理解等多項關鍵能力上超越了Gemini 3。

豆包1.8 Agent能力測試結果圖片來源：企業(yè)供圖

多模態(tài)能力的提升是模型成為復雜代理的關鍵。譚待闡釋了其戰(zhàn)略意義：“多模態(tài)其實代表著模型的應用進入更深的領域?！?/p>

譚待在接受包括《每日經(jīng)濟新聞》記者在內的媒體采訪時指出，現(xiàn)實中的需求輸入常帶有視覺信息，如車載環(huán)境、產(chǎn)品質檢，且工具返回的結果也多為視覺化。要有視覺化的理解才能處理這些工具的結果，這讓模型能像人一樣操作，極大地擴展了適用性?！拔覀兒茉缇鸵庾R到這個（多模態(tài)）才是模型真正地成為復雜的Agent（關鍵）?！?/p>

當多模態(tài)理解能力與具體的終端場景結合，便催生了顛覆性的體驗。

譚待以智能汽車座艙的理解提升為例，接入大模型后，系統(tǒng)在能理解“好熱”時就調溫，在說“打開天窗”時就打開遮陽板。甚至能完成憑歌詞搜歌等復雜操作，以及復雜的語音點餐。

他還描繪了一個更具象的未來場景：在導航至目的地時，系統(tǒng)不僅能推薦附近餐館，更能無縫完成車內點餐。他以與瑞幸合作的語音點餐為例展開說明，表示若以后這一能力平移到行車場景中，只需提前告知“在公司樓下幫我點杯咖啡”，抵達后便能直接取餐。

譚待總結道：“這種交互就是完全自然的以Agent的方式，像人一樣跟它交互，它能幫你做各種各樣的事情?！彼J為，這種智能交互將覆蓋手機、汽車乃至各類終端，展現(xiàn)出一個充滿可能性的“智能空間”。

與此同時，這種“多模態(tài)Agent”能力正通過標準化的API（應用程序編程接口）與開發(fā)平臺（AgentKit），快速向更廣闊的硬件與行業(yè)生態(tài)擴散。本次大會上正式宣布的“豆包助手API”，旨在將豆包對話、思考、搜索等核心產(chǎn)品能力打包開放，讓企業(yè)開箱即用，目前首批四項文本能力已上線火山方舟應用實驗室。

目前，火山引擎活躍的生態(tài)已經(jīng)在調用量上有所體現(xiàn)。截至今年12月，豆包大模型日均tokens（大模型處理文本的最小單位）調用量已突破50萬億，較去年同期增長超十倍；同時，有超過百家企業(yè)累計使用量超過1萬億tokens。

直面競爭與安全挑戰(zhàn)：如何應對行業(yè)激戰(zhàn)與用戶信任？

但站在日均50萬億tokens調用量的節(jié)點上，火山引擎接下來將面臨的是一個競爭日趨白熱化的市場。

在國內，阿里等對手在多模態(tài)與視頻生成領域緊追不舍。今年9月，阿里發(fā)布通義萬相Wan2.5模型，首次實現(xiàn)音畫同步生成，并顯著提升了視頻時長與清晰度。緊接著在11月，阿里宣布全力進軍AI to C市場，將“通義App”更名為“千問App”。

到了12月，千問App已快速接入迭代后的萬相2.6模型。該版本不僅支持多鏡頭生成、音頻驅動等進階功能，更宣稱實現(xiàn)了Sora2（OpenAI發(fā)布的新一代視頻生成模型）尚未具備的某些能力，力圖在視頻生成的功能全面性上建立競爭優(yōu)勢。此外，其他云廠商與AI公司也在通過價格策略、行業(yè)深度合作等方式爭奪市場份額。

對此，譚待在采訪中表現(xiàn)出一種開放的“競合”觀，他更傾向于將市場視為一個共同做大的蛋糕。在他看來，更多重量級玩家的投入能加速市場教育和基礎設施成熟?！霸蕉嗳诉M來是能夠加速（行業(yè)發(fā)展），能帶來更多的人，更多的想法，我們就能把這個事加速做好?！?/p>

而當被問及如何評估與公認頂尖模型Gemini 3的差距時，火山引擎總裁譚待展現(xiàn)出務實的追趕心態(tài)。他坦言：“你要衡量距離那有差距。”但他更強調動態(tài)的追趕過程，將競爭維度分解為距離、速度與加速度?！拔矣X得加速度我們現(xiàn)在在提升?！弊T待表示：“最終肯定能看到越來越接近?！?/p>

并且，隨著AI能力深入消費電子與企業(yè)核心，安全從技術問題演變?yōu)槭袌鲂湃蔚幕?。豆包手機助手上線后，其安全實踐便成為密集關注的焦點，促使官方兩度作出公開澄清。

對于INJECT_EVENTS（注入權限/注入事件）權限爭議，豆包手機助手于12月3日聲明，該權限是實現(xiàn)自動化操作所必需的系統(tǒng)級能力，需經(jīng)用戶主動授權且已在清單中明確披露，不會代替用戶進行任何敏感授權與操作。

12月13日，豆包手機助手又一次就安全爭議作出回應，稱其采用原生截屏接口，嚴格遵循應用聲明的Secure標記（安全標記），無法截取銀行安全鍵盤等受保護界面的內容。

針對豆包手機助手引發(fā)的安全討論，譚待也在采訪中表示，無論是面向消費者的產(chǎn)品還是企業(yè)級服務，安全都是字節(jié)跳動的首要考量。

此次發(fā)布會上，安全也被置于議程最前端，通過新功能MaaS on AICC（模型即服務基于人工智能機密計算平臺），火山方舟上的所有模型，包括豆包大模型家族和deepseek等開源模型，都可以直接運行在AICC加密環(huán)境中，只需要在火山方舟選擇“機密部署”方式，就可以一鍵開啟各種模型的機密推理服務。

押注Agent是火山引擎給出的戰(zhàn)略答案，最終的檢驗將取決于智能體所創(chuàng)造的實際價值，以及能否在運行全周期中筑牢可靠的安全防線。

免責聲明：本文內容與數(shù)據(jù)僅供參考，不構成投資建議，使用前請核實。據(jù)此操作，風險自擔。

封面圖片來源：每經(jīng)記者李宇彤攝

如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

生態(tài)適配已超95% 鴻蒙的下一關：十萬個應用

返回每經(jīng)網(wǎng)首頁

下一篇文章

山西宣布：廢除煙花爆竹“禁放令”！商家：已有不少消費者購買！太原市監(jiān)局工作人員：禁令廢止之后如何管理，還未收到其他政策性文件