视频生成进入'十秒一致性'阶段,但声音还是块短板
这一波视频模型把人物一致性顶到了十秒以上,可惜配音和口型还是各做各的。
这周试了三家新的视频生成。最直观的进步是一致性:十秒以内,人物的脸、衣服、光线基本不会崩,运镜也学会了”克制”,不再一上来就糊成抽象画。
但短板也很明显——画面和声音还是两套系统。口型对不上、环境音和画面割裂,一旦超过一句台词就出戏。
我的判断:画面这条线今年内会基本”够用”,真正的下一个台阶是音画同生成。谁先把这块缝起来,谁就拿到下一轮的入场券。
先观望,等能本地跑的版本出来再认真折腾。