騰訊混元發(fā)布并開源HunyuanVideo 1.5 元寶上線生視頻能力|資訊

2025-11-21 16:39:01 來源：上海證券報·中國證券網(wǎng)

(資料圖)

上證報中國證券網(wǎng)訊（記者譚镕）11月21日，騰訊混元大模型團隊正式發(fā)布并開源HunyuanVideo 1.5。這是一款基于Diffusion Transformer（DiT）架構(gòu)、參數(shù)為8.3B的輕量級視頻生成模型，支持生成5至10秒的高清視頻。目前，騰訊元寶最新版已上線該模型能力。用戶可通過兩種方式即可體驗：一是輸入文字描述（Prompt），直接實現(xiàn)“文生視頻”；二是上傳圖片配合文字描述，將靜態(tài)圖片轉(zhuǎn)化為動態(tài)視頻。

此前，視頻生成領(lǐng)域的開源SOTA旗艦?zāi)Ｐ椭辽儆?0B，需要超過50GB顯卡方可部署。HunyuanVideo 1.5的出現(xiàn)大幅降低了硬件部署門檻，以極低的門檻就可以獲得旗艦?zāi)Ｐ偷捏w驗，目前模型已上傳至Hugging Face和Github社區(qū)。

據(jù)介紹，HunyuanVideo 1.5模型具備全面且強大的核心能力，支持中英文輸入的文生視頻與圖生視頻。模型還具備強指令理解與遵循能力，能夠精準地實現(xiàn)多樣化場景，包括運鏡、流暢運動、寫實人物和人物情緒表情等多種指令；同時支持寫實、動畫、積木等多種風(fēng)格，并可在視頻中生成中英文文字。在畫質(zhì)方面，模型可原生生成5至10秒時長的480p和720p高清視頻，并可通過超分模型提升至1080p電影級畫質(zhì)。

同時，HunyuanVideo 1.5創(chuàng)新的SSTA稀疏注意力機制（全稱Selective and Sliding Tile Attention, 選擇性滑動分塊注意力）在保證高質(zhì)量生成的同時顯著提升推理效率，配合多階段漸進式訓(xùn)練策略，在運動連貫性、語義遵循等關(guān)鍵維度均達到商用水平。

HunyuanVideo 1.5 GSB（Good Same Bad）評測結(jié)果

騰訊元寶稱，自上線以來，元寶不斷拓展AI能力的邊界，此次“一句話生視頻”的上線，標志著元寶在多模態(tài)能力上邁出了關(guān)鍵一步，正式實現(xiàn)了從文本、圖片、音頻到視頻的“圖文音視”全模態(tài)覆蓋。這不僅是元寶產(chǎn)品能力的升級，更讓AI成為一個貼近用戶的實用工具。

標簽：騰訊視頻元寶 HunyuanVideo 一句話

[責任編輯:]