科技日?qǐng)?bào)記者 楊雪
2026馬年春晚為大家?guī)?lái)一場(chǎng)名副其實(shí)的“藝術(shù)+技術(shù)”盛宴。舞美設(shè)計(jì)中,AI、AR、XR等技術(shù)手段的靈活運(yùn)用,在虛實(shí)之間營(yíng)造出“人在景中、景隨人動(dòng)”的沉浸立體式視覺(jué)效果。大模型首次深度參與到多個(gè)春晚節(jié)目的創(chuàng)意構(gòu)思與視覺(jué)呈現(xiàn)環(huán)節(jié),與導(dǎo)演組、制作團(tuán)隊(duì)共同探索了生成式AI在大型舞臺(tái)藝術(shù)創(chuàng)作中的應(yīng)用邊界。
據(jù)報(bào)道,此次大模型視頻生成、圖像生成、空間視頻等技術(shù)支持由火山引擎提供。記者從字節(jié)跳動(dòng)了解到,Seedance2.0推出之前,就在為多個(gè)春晚節(jié)目進(jìn)行深度定制,春晚也是Seedance2.0的第一個(gè)用戶。那么,大模型技術(shù)到底如何參與春晚舞臺(tái)的藝術(shù)創(chuàng)作?3D數(shù)字分身的奇幻舞臺(tái)是怎樣實(shí)現(xiàn)的?“AI互動(dòng)”是什么,與過(guò)去搖一搖搶紅包又有啥區(qū)別?
第一問(wèn):大模型技術(shù)如何參與春晚舞臺(tái)的藝術(shù)創(chuàng)作?
以節(jié)目《馭風(fēng)歌》為例,歌手身后的背景是一幅水墨畫(huà)風(fēng)格的視頻畫(huà)面。這是本次春晚AI參與度最深、技術(shù)挑戰(zhàn)最大的節(jié)目之一。讓水墨風(fēng)格的素材在舞臺(tái)背景畫(huà)中靈動(dòng)起來(lái),是對(duì)模型的國(guó)風(fēng)美學(xué)理解和泛化能力的巨大考驗(yàn)。此前,很多國(guó)際領(lǐng)先的視頻生成模型都難以理解中國(guó)水墨畫(huà)的構(gòu)圖和邏輯,生成視頻容易出現(xiàn)變形。
seedance2.0不僅精準(zhǔn)保持了水墨畫(huà)的風(fēng)格,還保證了素材動(dòng)態(tài)的舒展與自然,做到“形神兼?zhèn)洹薄;鹕揭嫦嚓P(guān)負(fù)責(zé)人介紹,這得益于多模態(tài)視頻生成能力。比如,模型的物理特性遵循,讓每匹馬的奔跑都遵循自然規(guī)律,動(dòng)作流暢無(wú)僵硬感,加速與減速符合物理邏輯,節(jié)奏充滿力量感與韻律;語(yǔ)義理解能力的顯著增強(qiáng),讓模型可以對(duì)動(dòng)作、表情、運(yùn)鏡、文字內(nèi)容精準(zhǔn)執(zhí)行,精準(zhǔn)響應(yīng)“輕輕地”“再輕一點(diǎn)”等動(dòng)態(tài)副詞,根據(jù)細(xì)節(jié)需求調(diào)整每個(gè)畫(huà)面;模型能同時(shí)處理圖片、視頻、音頻等多種素材,訓(xùn)練中加入大量中國(guó)傳統(tǒng)文化語(yǔ)料(京劇、水墨、傳統(tǒng)繪畫(huà)),讓模型理解水墨藝術(shù)邏輯。
在視頻生成前,靜態(tài)的關(guān)鍵幀和分鏡設(shè)計(jì)則由豆包圖像創(chuàng)作模型Seedream4.5完成。它能夠深刻理解水墨畫(huà)的藝術(shù)風(fēng)格,并根據(jù)導(dǎo)演的草圖布局,生成兼具原畫(huà)神韻與新構(gòu)圖的靜態(tài)圖像,為后續(xù)的視頻生成提供了高質(zhì)量“藍(lán)本”。
第二問(wèn):3D數(shù)字分身的奇幻舞臺(tái)是怎樣實(shí)現(xiàn)的?
在節(jié)目《夢(mèng)底》中,演員實(shí)現(xiàn)了“多個(gè)自己”在舞臺(tái)上不同位置同時(shí)表演的震撼場(chǎng)面。當(dāng)鏡頭從側(cè)面掃過(guò)時(shí),能清晰看到每一個(gè)數(shù)字分身側(cè)臉的輪廓和光影,而非一張簡(jiǎn)單的“紙片人”。
這種“真人3D克隆”的視覺(jué)效果來(lái)自火山引擎空間視頻技術(shù)。據(jù)介紹,首先,演員在專(zhuān)業(yè)環(huán)繞式采集棚中完成表演,現(xiàn)場(chǎng)的70臺(tái)工業(yè)級(jí)高分辨率相機(jī)陣列會(huì)從不同角度同步捕捉其動(dòng)態(tài),為后續(xù)的四維重建提供高質(zhì)量、多視角的原始視頻數(shù)據(jù)。然后,這些數(shù)據(jù)被送入云端,通過(guò)火山引擎自研的空間視頻4DGS(4D高斯?jié)姙R)重建算法,將演員的表演重建為4D數(shù)字資產(chǎn)。最后,這些資產(chǎn)導(dǎo)入U(xiǎn)nreal Engine(UE)或Unity等主流游戲引擎,根據(jù)現(xiàn)場(chǎng)導(dǎo)播系統(tǒng)和燈光控制臺(tái)傳來(lái)的實(shí)時(shí)數(shù)據(jù),進(jìn)行實(shí)時(shí)同步渲染,最終將虛實(shí)結(jié)合的畫(huà)面輸出到直播流中。
虛擬的數(shù)字人與現(xiàn)場(chǎng)真實(shí)燈光“天衣無(wú)縫”的背后,是一套被稱(chēng)為“DMX”的舞臺(tái)燈光控制協(xié)議。火山引擎通過(guò)實(shí)時(shí)轉(zhuǎn)譯現(xiàn)場(chǎng)的DMX信號(hào),驅(qū)動(dòng)虛擬場(chǎng)景中的虛擬燈光,使其與物理燈光毫秒級(jí)響應(yīng),從而渲染出完全同步的光影效果,確保數(shù)字人“活”在真實(shí)的環(huán)境中。
同時(shí),結(jié)合豆包的Seed3D和DA3模型:前者提前為演員的每一幀生成一個(gè)簡(jiǎn)化的、不可見(jiàn)的“幾何外殼”,渲染時(shí),系統(tǒng)只需計(jì)算這個(gè)極簡(jiǎn)“外殼”的影子,計(jì)算量大幅降低,渲染效率大幅提升;后者為光影計(jì)算提供了極穩(wěn)定和準(zhǔn)確的“先驗(yàn)知識(shí)”,從根本上保證了演員在近景下皮膚質(zhì)感與光影過(guò)渡的細(xì)膩真實(shí)。
第三問(wèn):“AI互動(dòng)”是什么,與過(guò)去搖一搖搶紅包有啥區(qū)別?
傳統(tǒng)的互聯(lián)網(wǎng)互動(dòng)遵循預(yù)設(shè)規(guī)則——類(lèi)似一個(gè)自動(dòng)售貨機(jī),用戶點(diǎn)擊一個(gè)按鈕,系統(tǒng)從預(yù)先準(zhǔn)備好的貨架上取出一個(gè)確定的商品。這個(gè)結(jié)果是有限的、可窮舉的,系統(tǒng)只需做好高并發(fā)的“存取”操作。
豆包App在春晚提供的AI互動(dòng)則更像一個(gè)能夠自由創(chuàng)作的機(jī)器人。據(jù)介紹,它能先感知、再規(guī)劃、后行動(dòng)。首先“聽(tīng)懂”用戶的開(kāi)放式指令,比如“給我生成一個(gè)馬年頭像”“寫(xiě)一段拜年祝福語(yǔ)”等,并能感知多模態(tài)的信息,如用戶上傳自己的圖片。接收到指令后,自主“規(guī)劃”一個(gè)復(fù)雜的執(zhí)行鏈路,例如生成一張圖片可能需要依次調(diào)用意圖理解模型、安全審核模型、圖片生成模型等多個(gè)模型和工具。最終執(zhí)行規(guī)劃,實(shí)時(shí)生成前所未見(jiàn)的、高度個(gè)性化的內(nèi)容(文字、圖片等),并將結(jié)果呈現(xiàn)給用戶。
這種開(kāi)放式、實(shí)時(shí)生成、多模態(tài)的特性,正是AI Agent(智能體)的核心能力,也構(gòu)成了“AI互動(dòng)”與傳統(tǒng)“固定規(guī)則交互”的本質(zhì)不同,為每一個(gè)用戶,在每一個(gè)瞬間,進(jìn)行一次獨(dú)一無(wú)二的“實(shí)時(shí)創(chuàng)作”。

網(wǎng)友評(píng)論