在科技飞速发展的当下,AI 生成视频已成为热门话题。2025 年对于视频生成领域而言是具有里程碑意义的一年,众多科技巨头和初创公司纷纷推出了各自的 AI 视频生成模型。OpenAI 公开了 Sora,Google DeepMind 推出了 Veo 3,视频初创公司 Runway 也发布了 Gen - 4,这些模型生成的视频片段几乎能以假乱真,与真实拍摄素材或 CGI 动画难以区分,甚至 Netflix 还在剧集《永恒族》中首次使用了 AI 视觉特效。
如今,AI 生成视频技术已不再局限于专业人士使用。普通用户通过应用程序或网站就能轻松体验,例如对智能助手说“给我做一个独角兽吃意大利面,然后它的角像火箭一样发射升空的视频”,不过结果可能需要多次尝试才能符合预期。
那么,AI 生成视频背后的原理是什么呢?其核心技术之一是“潜在扩散 Transformer”。先来说说扩散模型,它就像一场逆向的“像素游戏”。想象一张图像不断随机散布像素点,最终变成一团混乱的噪点,而扩散模型经过训练可以将这团噪点再转化为图像。在训练中,它会学习数百万张处于不同像素化阶段图像的变化规律。为了生成用户指定的图像,扩散模型会与一个能将图像和文本描述匹配的大语言模型配对,该大语言模型在包含数十亿对文本与图像或文本与视频的大型数据集上训练,这也使得生成的内容可能带有网络世界中的一些偏见。
扩散模型不仅能处理图像,还能用于音频和视频。为了生成视频,它要清理一系列图像,也就是视频的连续帧。但这需要巨大的算力和能源,于是“潜在扩散”技术应运而生。模型在“潜在空间”中工作,将视频帧和文本提示词压缩成数学代码,只捕捉基本特征,最后再将压缩后的结果解压成可观看的视频,这大大提高了效率。
然而,要确保生成的视频帧与帧之间连贯一致并非易事。OpenAI 通过将扩散模型与 Transformer 结合解决了这个问题。Transformer 擅长处理长序列数据,将视频切割成块后,它能帮助扩散模型在生成过程中保持一致性,让物体不会莫名出现或消失。而且,这种方式使得模型可以在各种格式的视频上训练,能按要求生成不同格式的视频。
在音频生成方面,Veo 3 取得了重大突破,它可以生成带有音频的视频,包括口型同步的对话、音效和背景噪音。Google DeepMind 采用新方法将音频和视频压缩成单一数据,让扩散过程能同时处理两者,实现声音和图像的对齐。
此外,生成文本的大语言模型和扩散模型的界限也在逐渐模糊。Google DeepMind 正尝试用扩散模型生成文本,由于扩散模型本身其实比 Transformer 更高效,未来可能会催生出更多基于扩散模型的成果。
广州璞雅作为一家立足广州的公司,也在密切关注 AI 生成视频领域的发展动态。随着技术的不断进步,AI 生成视频在未来有望在影视制作、广告宣传、教育等众多领域得到更广泛的应用,为人们的生活和工作带来更多的可能和便利。