
當AI視頻不再只像過去那樣比拼高清像素,而是開始進入“飆演技”階段,AI視頻才算正式邁入內容生產的最高級形式——影視級敘事新階段。
9月25日,生數科技新一代圖生視頻大模型Vidu Q2正式全球上線,打破了原有AI生成的表情太假,動作飄忽不定,運動幅度不夠大,無法指哪打哪的行業問題,實現從“視頻生成”到“演技生成”,從“動態流暢”到“情感表達”的革命性跨越,標志著AI視頻生成技術正式從追求“形似”進入追求“神似”的新紀元,將為內容創作、影視產業、廣告營銷等領域帶來全新升級。Vidu Q2圖生視頻功能不僅能勝任復雜表情變化的文戲,常見的多人打斗場景的武戲,而且還能完美呈現大片中的炫酷特效。
據了解,相比于今年上半年發布的Vidu Q1模型,此次發布的Vidu Q2圖生視頻功能在極致細微表情生成、推拉運鏡、語義理解、生成速度與時長選擇方面都有了大幅提升,主要有4大亮點:
1、AI演技更生動——不僅能生成視頻,更有生動演技
2、鏡頭語言更豐富——運鏡自然流暢,創作更顯張力
3、語義理解更準確——創意直達畫面,想象即刻成真
4、時長選擇更自由——時長選擇靈活,滿足更多場景
此外,為了滿足用戶對于生成速度和生成質量的不同需求,Vidu Q2圖生視頻分為閃電模式和電影大片模式。閃電模型下20秒就能生成 5秒 1080P視頻片段,滿足極速出片的需求;電影大片模式則主要滿足對于復雜表演、運鏡等有更高要求的用戶。
目前,Vidu Q2圖生視頻功能已同步在其Web 端、APP端以及API上線。
1.AI演技更生動
前不久的威尼斯電影節,辛芷蕾以極其精湛的演技獲得了威尼斯國際電影節最佳女主角獎。對于演技派來說,最高的褒獎是演什么像什么,看了讓人產生共鳴和代入感。而這種代入感往往是通過演員的細微情緒變化實現的,在短短幾秒中突顯人物情緒張力,表達人物性格,推動故事發展。
此前AI生成的短劇、長片或多或少都存在人物表情僵硬、不自然,演技浮夸的情形,很難表現角色復雜細膩的情緒。而此次發布的Vidu Q2圖生視頻則突破“最后一道壁壘”,在細微表情生成中的技術被成功攻克,使數字角色能夠展現出生動且充滿感染力的演技,賦予了AI角色以生命力。
我們可以讓AI演員和電影演員同臺PK演技,復刻《甜蜜蜜》張曼玉經典片段,短短5秒時間呈現從微笑——委屈——難過三種復雜情緒。左邊是電影原片段,右邊是Vidu Q2圖生視頻生成的,人物演技非常自然,三種情緒之間的轉換很有呼吸感,即使努力壓抑,但是仍然流露出委屈和難過,對比來看AI 生成的視頻與原視頻并無顯著差別。
真正的老戲骨每一個細胞都在演戲。這次Vidu Q2圖生視頻相比于Q1,在細膩的情緒表達上有了明顯提升,即使一個眼神也能述說故事。

輸入圖片

Vidu Q2圖生視頻
上述例子中,特寫聚焦于一個金發碧眼老人的半邊臉,周圍的火焰將老人的臉照得通紅,他輕輕地眨了眨眼,眼淚中飽含淚水,一滴眼淚從右眼中緩緩流下。即使沒有任何言語和環境渲染,也讓人對戰爭的殘酷感同身受,AI人的演技足可以媲美真人。
在動漫場景中,Vidu Q2的表現也相當驚艷,表情惟妙惟肖更有代入感。在小狐貍的案例中,從瞪大眼睛的驚喜,到躲在石頭后面的驚訝和害怕,耳朵豎了起來,再到稍微放松警惕后的無奈,表情的變化似乎在告訴觀眾好像有什么突如其來的大事發生。小狐貍靈動的演技有迪士尼動畫那味了。

在多個角色互動場景中,Vidu Q2的表現也可圈可點。下面案例中,一男一女笑得合不攏嘴,之后女生捂著嘴笑,男生低頭笑著擦了擦眼睛,兩人再互相對視,真實得仿佛進入了某個播客的錄制現場。
再拿Vidu Q2圖生視頻和其他AI視頻產品作對比。下面案例中,Vidu Q2生成的視頻每個表情都表現非常精準,從淡淡地微笑到嘴唇微張,眼神從微微向下看到望向遠方。其他AI 視頻則完全沒有表現出細微表情的變化,視線僅表現了看向遠方。
提示詞:視線微偏鏡頭下方,嘴角輕上揚但不露齒,下巴略收。隨后瞳孔微放大,眼神越過鏡頭遠點,嘴唇濕潤輕啟。
下面古裝戲場景中,其他家雖然也表現了表情凝重,但是演技比較單一,僅是完成了提示詞要求,最后抬手也沒有碰到額頭,給人不真實的感覺。對比來看,Vidu Q2的表情層次更加豐富,不僅嚴格遵循了提示詞,而且AI自動設計了眼神和動作的變化,表演上“更為走心”,首先男人邊喘著粗氣邊表情凝重地看向遠方,緊接著視線收回,嘴巴微閉,抬起手擦了擦額頭,把凝重又疲憊的感覺演繹得非常到位。
提示詞:這是一個美麗的夕陽場景,陽光照著古戰場,空氣中有著漂浮的灰塵,男人喘著粗氣進行簡單的休息,表情凝重,最后用手擦了一下額頭
從“AI木頭”到“AI演技派”,從浮夸演技到內心戲,Vidu Q2 新一代AI演技的誕生,預測未來將在影視短劇、數字人、廣告營銷等多個領域有廣泛應用。
不僅如此,Vidu Q2還是個能文能武的全能型演技派,在武打戲上也是個“老戲骨”。
此前AI視頻普遍存在的問題是,運動飄忽不定,就連現實生活中常見的跑步和打籃球場景都很難實現,多人打戲更是需要依靠超高的提示詞技巧和多次生成,即使這樣打戲也是軟弱無力,像是自動放了2倍慢速,毫無看點。
Vidu Q2圖生視頻在運動幅度上有明顯提升,即使是比較有挑戰的連續運動(比如打架、打拳等)場面也能精準還原,實現真正的“拳拳到肉”。
下面雙人拳擊場景中,紅方迅速出拳,藍方快速躲避并迅速來了個左勾拳,紅方連續出拳后,紅藍方稍作停頓,雙方都發起反攻,藍方用雙手防備后開啟猛攻,連續三次攻打紅方腹部后退回原地,瞬間帶入拳擊比賽現場,緊張氣氛拉滿。

如果把真實場景中的人物換成動畫中的小林和悟空,效果也同樣驚人。悟空跳躍后放出大招沖擊波,之后與小林連續多次出拳過招,雙方打斗的同時也伴隨著炫酷的動畫特效,生成的視頻兼具速度和力量感,讓人看得十分過癮。
Vidu Q2 甚至不需要復雜的提示詞也能呈現非常精彩的打戲。
如下面案例中,長發女生手持光劍與周圍的多個小型機器人進行激烈對戰,女生奔跑,蹲下,站起來用光劍與迎面而來的小型機器人對抗,一躍而起后轉而被其他機器人打擊退回原地。如此復雜的打戲,提示詞卻相當簡單,“流暢的奔跑,爽快的打斗,合理安排不同鏡頭,自由運鏡”,這也意味著Vidu Q2 對于動作的理解和生成能力已經進化到Next level了。

更為值得一提的是,Vidu Q2圖生視頻即使在如此大幅度的運動下,仍然能保持角色較高的一致性,不會出現人物模糊或者變臉的情況。這對于影視、動漫制作來說至關重要,背后得益于Vidu在一致性上的投入。去年Vidu在全球首個推出了參考生視頻功能,將AI視頻的可控一致性拉到了新的高度,而此次推出的Vidu Q2則延續了其作為一致性開創者的優勢。
2.鏡頭語言更豐富
當其他家都在鼓吹好萊塢級別運鏡時,一向低調務實的Vidu 已經直接讓新手小白做影視大片了。據了解,Vidu Q2 可輕松實現從宏觀全景到微觀特寫的快速切換,以營造更具沖擊力的視覺效果。
為了讓AI視頻更能滿足廣告電商、影視動漫等較為復雜的運鏡需求,Vidu Q2圖生視頻在復雜運鏡上做到了秒級精準可控。
如下面的動畫案例中,俠客揮舞著劍到變身閃電狼,中間有6個鏡頭切換,包括從特寫直接切到大全景,同時還需要配合俠客轉身同時騰空而起等動作,即使在現實拍攝場景中挑戰也很大,但從實際生成效果來看, Q2 生成的畫面鏡頭和AI人物配合默契,整個動作一氣呵成,非常絲滑。

在極速運動場景下的大幅度鏡頭切換非常考驗空間理解能力和主體穩定性,對于AI視頻來說極具挑戰,但是Vidu Q2的表現卻非常完美。從全景到賽車手眼神特寫再到沖線后的觀眾席特寫,Vidu Q2在整個過程中對于推拉搖移鏡頭的調度極為流暢,跟隨鏡頭下突顯了賽車手全力沖刺的緊張感和速度感,同時也反映了賽場周圍的熱鬧氣氛。
提示詞:顛簸鏡頭跟隨
鏡頭一:全景推進跟隨FI賽車前景
鏡頭二:切換戴F1賽車頭盔的駕駛員緊張駕駛F1賽車眼神
鏡頭三:特寫F1賽車加速儀表
鏡頭四:F1賽車駕駛員第一人稱視角,賽車加速前進
鏡頭五:F1賽車快速行駛全景視角,沖向終點
鏡頭六,F1賽車沖線后,看臺上歡呼慶祝的觀眾特寫視角
3.語義理解更準確
無論是AI演技的提升還是運鏡的精準拿捏,其實質上是Vidu Q2 在動作理解、表情理解和鏡頭語言理解上的飛升。據了解,由于Vidu Q2 在上下文推理、圖像及語義理解和物理仿真能力上的提升,使其在提示詞遵從上有了質的飛躍,有創作者評價為言出法隨,指哪打哪。內容創作者不再需要像過去一樣反復抽卡、反復調整提示詞和輸入畫面,大幅減少了視頻生成次數,可直接將創意轉化為想要的視頻畫面。
在實際測試中發現,Vidu Q2像是一位嚴格聽話同時又具備合理想象力的“AI 導演”。
下面的案例中,提示詞要求在8秒中精確切換4個不同的鏡頭,完成從貓貓在街頭彈古箏,到從古箏中飛出邪惡的骷髏戰士的復雜敘事,可以看到生成的視頻中不僅嚴格遵循了復雜的提示詞的所有要求,而且骷髏戰士從一團白氣中突然出現的畫面非常驚艷,鏡頭切換也很流暢。
提示詞:
1-2s:坐著的貓輕輕撫動古琴琴弦,鏡頭快速推近;
3-4s:近距離大特寫貓邪惡詭異的一笑,然后突然變得兇狠,鏡頭先推近拍攝同時向右環繞運鏡拉遠到側面;
5s:貓用力撥動琴弦;
6-8s:琴弦釋放出白色亮光魔法靈氣,靈氣向左沖刺,然后靈氣幻化形成一個拿著刀的氣態邪惡骷髏戰士向左高速飛行,鏡頭高速跟蹤拍攝同時推近運鏡

Vidu Q2 在語義理解上質的突破,將過去因反復生成帶來的時間、人力、成本以及效果的不確定性,變為高質量穩定輸出的確定性,預計影視短劇、廣告行業即將迎來AI視頻大規模商業化拐點。
4.時長選擇更自由
除了性能提升之外,一向對市場需求敏感的Vidu 也推出了新功能,賦予創作者更多自由發揮的空間。
此前業內AI視頻產品更多以5秒時長偏多,無法讓內容創作者自由選擇,具有一定的局限性。Vidu Q2圖生視頻此次推出的2-8秒時長隨心選,無論是1秒的特寫鏡頭,還是8秒的連續長鏡頭或多個切換鏡頭,都可以任意選擇,滿足創作者不同場景的敘事需求。

此外,作為內容生產力工具,這次Vidu Q2的發布仍然繼承了Vidu的優良傳統,做到了極高性價比、極致畫面質量、極快生成速度的平衡。
在同等畫質和時長上,Vidu Q2在生成速度上做到了行業領先。Vidu Q2圖生視頻閃電模式下1080P 5秒視頻僅為20秒,實現了高質量畫面的極速生成。
當以Vidu Q2為代表的產品開始談論AI演技時,我們知道下一個AI 時代的內容新世界即將到來。
(封面圖及文中視頻、圖片來源:生數科技)