(網(wǎng)經(jīng)社訊)5月9日,騰訊AI實(shí)驗(yàn)室旗下混元團(tuán)隊(duì)宣布正式推出并開源全新多模態(tài)視頻生成工具Hunyuan Custom,該工具基于混元視頻生成大模型(Hunyuan Video)開發(fā),旨在通過多模態(tài)融合技術(shù)突破傳統(tǒng)視頻創(chuàng)作的邊界,為用戶提供高效、可控的定制化視頻生成解決方案。此次開源標(biāo)志著騰訊在多模態(tài)AI領(lǐng)域的技術(shù)積累進(jìn)一步向行業(yè)開放,助力數(shù)字內(nèi)容創(chuàng)作生態(tài)的全面升級(jí)。
核心優(yōu)勢(shì):多模態(tài)融合重塑視頻生成范式
據(jù)網(wǎng)經(jīng)社(qjkhjx.com)獲悉,Hunyuan Custom的核心競(jìng)爭(zhēng)力在于其對(duì)文本、圖像、音頻、視頻等多模態(tài)數(shù)據(jù)的深度融合能力。與傳統(tǒng)模型僅支持單一或有限模態(tài)輸入不同,該工具能夠同時(shí)處理多元信息,并轉(zhuǎn)化為邏輯連貫、視覺自然的視頻內(nèi)容。通過深度學(xué)習(xí)算法對(duì)多維度數(shù)據(jù)的協(xié)同解析,Hunyuan Custom在生成質(zhì)量、動(dòng)態(tài)控制及場(chǎng)景適配性上實(shí)現(xiàn)了顯著提升。例如,用戶只需輸入一張圖片和簡(jiǎn)短文本描述,Hunyuan Custom即可生成包含復(fù)雜動(dòng)作、服飾變化及場(chǎng)景轉(zhuǎn)換的高質(zhì)量視頻,徹底打破傳統(tǒng)模型在人物一致性及場(chǎng)景連續(xù)性上的技術(shù)瓶頸。
四大生成模式解鎖多元?jiǎng)?chuàng)作場(chǎng)景
為滿足不同應(yīng)用場(chǎng)景的需求,Hunyuan Custom提供了四大核心功能模塊:?jiǎn)沃黧w視頻生成、多主體視頻生成、單主體視頻配音及視頻局部編輯。目前,單主體生成能力已率先在騰訊混元官網(wǎng)“模型廣場(chǎng)-圖生視頻-參考生視頻”板塊開源上線,用戶可直觀體驗(yàn)“圖片+文本”驅(qū)動(dòng)的個(gè)性化視頻創(chuàng)作。其余功能模塊預(yù)計(jì)于5月內(nèi)陸續(xù)開放,進(jìn)一步釋放多模態(tài)創(chuàng)作的潛力。 在單主體生成模式下,工具通過深度學(xué)習(xí)人物身份特征,可實(shí)現(xiàn)同一主體在不同動(dòng)作、服飾及場(chǎng)景中的無(wú)縫轉(zhuǎn)換,確保視頻敘事連貫性;多主體生成則支持多角色協(xié)同演繹,滿足劇情類視頻的復(fù)雜需求。此外,音頻驅(qū)動(dòng)模式可將人物圖像與音頻信號(hào)實(shí)時(shí)同步,生成音視頻一體的數(shù)字人表演,廣泛應(yīng)用于虛擬直播、客服交互等場(chǎng)景;視頻驅(qū)動(dòng)模式則通過智能替換或插入技術(shù),實(shí)現(xiàn)任意視頻片段的創(chuàng)意重構(gòu),為內(nèi)容二次創(chuàng)作提供全新工具。
技術(shù)突破:破解人物一致性與場(chǎng)景變換難題
針對(duì)傳統(tǒng)視頻生成模型在人物特征保持及場(chǎng)景動(dòng)態(tài)切換上的局限性,Hunyuan Custom通過兩項(xiàng)關(guān)鍵技術(shù)實(shí)現(xiàn)突破。首先,模型引入“多模態(tài)特征錨定”機(jī)制,通過圖像與文本的交叉驗(yàn)證,精準(zhǔn)鎖定主體身份信息,即使在動(dòng)作、服飾及背景劇烈變化的情況下仍能維持人物一致性。其次,采用“動(dòng)態(tài)場(chǎng)景生成網(wǎng)絡(luò)”,模型可根據(jù)文本語(yǔ)義自動(dòng)構(gòu)建適配場(chǎng)景,并通過物理引擎模擬實(shí)現(xiàn)環(huán)境交互的真實(shí)感。例如,用戶輸入“女孩在雨中奔跑”的描述,模型不僅生成連貫動(dòng)作,還能同步渲染雨滴軌跡、地面反射等環(huán)境細(xì)節(jié),大幅提升視頻逼真度。
開源生態(tài)構(gòu)建:加速AI創(chuàng)作民主化進(jìn)程
騰訊混元團(tuán)隊(duì)表示,Hunyuan Custom的開源旨在推動(dòng)AI創(chuàng)作技術(shù)的普惠化發(fā)展。目前,單主體生成模塊已通過官網(wǎng)開放API接口及模型代碼,開發(fā)者可自由調(diào)用或二次開發(fā)。后續(xù)模塊開源后,將進(jìn)一步降低視頻創(chuàng)作的門檻,賦能廣告營(yíng)銷、影視制作、教育培訓(xùn)等行業(yè)。團(tuán)隊(duì)同時(shí)承諾持續(xù)優(yōu)化模型性能,并通過社區(qū)反饋機(jī)制完善工具生態(tài),構(gòu)建開放協(xié)作的技術(shù)發(fā)展模式。