2024-02-26 16:27:04 作者 : 田佩雯 武柳青 围观 :143次
近日,美国人工智能研究公司OpenAI推出人工智能文本生成视频大模型——Sora。在其官网首页,无数只彩色纸飞机在空中飞翔,穿越密林的姿态,犹如真实的群鸟一般。这个被OpenAI称作“世界模拟器”的Sora,名字来源于日语“天空”,它继承了OpenAI DALL·E3的画质和遵循指令能力,可根据简单文字,生成长达1分钟的高清视频。
Sora究竟有哪些特别之处?会不会在不远的将来抢走人类的“饭碗”?如何看待其带来的系列挑战?2月22日,湖北日报全媒记者采访了部分专家和相关人士。
前所未有的技术飞跃
Sora的官网展示了48个视频,其逼真细节、流畅程度,以及娴熟的镜头转换,足以惊讶每一位专业及非专业人士——
霓虹闪耀的东京夜晚,一位墨镜女郎步履曼妙款款走来,城市光景尽收眼底;咖啡杯内,两艘海盗船正在进行一场激烈的竞逐,波涛汹涌,犹如一场真实的“海战”;特写镜头下,变色龙展示着其令人瞩目的变色能力,画面细腻程度不亚于纪录片……
Sora让“一句话生成视频”成为可能,并且令人震惊的是,Sora能够理解物体在物理世界中的存在,并呈现出世界的复杂性和多样性,用镜头语言“讲故事”,这也让Sora创造的内容几乎没有太多“AI感”。
武汉大学计算机学院“90”后教授叶茫从事计算机视觉相关研究,为什么Sora能够实现如此震撼的效果?叶茫解释,Sora继承了ChatGPT基因,在语言理解方面功夫深厚。首先基于对文本的准确分析,Sora理解了文本中的关键词、短语、句子甚至情绪之后,再从广泛的数据中,规划视频的风格、场景、主题,匹配最适合的内容,“就是在找到一个大的范围之后,根据文本进行一些调整。”
“能做到这一点,其实需要通过大量的视频训练。”叶茫说,在以前的案例中,文生视频较短(4秒),或者视频分辨率比较低。Sora有着60秒超长的长度,保证了图像的连续性和真实感,并且能够围绕同一主体进行远景、中景、近景、特写等不同镜头的切换,这意味着Sora经过大规模的训练,出现了“对世界的模拟”。
但在物理规律的模拟上,Sora仍存在不足。比如演示视频中,五只小狼崽在一条偏僻的碎石路上互相嬉戏、追逐,但一些小狼会凭空出现或消失。OpenAI也毫不避讳地说明:“它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。”
“但某种程度上,它也可以创造出更多想象空间。”叶茫说,“比如鲨鱼能够在天空中飞翔,虽然不符合常识,但也极具想象力。”
人人可做“白日梦想家”
目前,Sora暂未广泛开放权限,仅对小部分视觉艺术家、设计师和电影制作人开放。但Sora一经发布,如投石击水,惊起一圈波澜。
看到Sora制作的视频后,影视从业者林佳笑称,“饭碗快端不住了”。林佳说,Sora生成视频的光影和细腻效果都让人震惊,“质感相当不错,完全可以达到一些电影的水平”,如果用传统的建模来制作这样的效果,则需要几倍,甚至几十、几百倍的制作成本。
有网友提出,人工智能能够根据文本生成视频,未来一部小说就是一部电影。但在林佳看来,同行对于人工智能的忧虑,目前仅仅止步于玩笑中。
据林佳观察,身边使用人工智能大模型的人并不多。林佳坦言,Sora也许像ChatGPT一样,是一种提高效率的创作工具,能极大节省内容生产成本,但高质量的长视频需要各工种的策划配合,短时间内Sora还难以实现,“但好的创意肯定会越来越值钱,Sora对于创意人来说,也许并不是洪水猛兽。”
在技术协同发展的背景下,叶茫认为,Sora将与脑机接口、脑机交互、元宇宙等领域结合,碰撞出无限可能。据叶茫介绍,此前,文生视频在游戏领域已有小范围应用,随着技术的迭代,现在是60秒,未来就可以是10分钟、半小时甚至更多,人们在想象中遨游将变为可能,“未来与AR、VR结合,配合头显眼镜等硬件设备,将会存在很大的发展空间,将来能够彻底改变我们和数字内容的交互方式,创造出一种前所未有的沉浸式体验。”
如何用好Sora?
“Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。”360公司创始人周鸿祎公开表示,Sora展现的不仅仅是视频制作的能力,有了大模型技术作为基础,再加上人类知识的引导,可以创造各个领域的超级工具,例如在生物医学、蛋白质、基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。
叶茫认为,Sora文生视频实际上基于大规模数据的持续训练,以及巨额算力支撑,目前国内绝大部分大模型公司应该都无法完成,“AI的快速发展带来了巨大的算力需求,中外差距在进一步加大,也对底层研究提出了更高的要求。”
作为广告人,叶子早就注意到AI在广告行业内的应用。她表示,不得不承认,在AI的影响下,广告创意、制作、投放等方面的效率都得到了大幅提升。比如,利用算法可以更精准分析用户行为,更精准投喂广告内容;借助AI碰撞出高质量的个性化创意,吸引更多人的眼球。
叶茫和叶子不约而同地强调,Sora也面临着几个生成式AI老生常谈的问题。比如版权方面,AI在学习中“借鉴”“模仿”特定艺术家风格生成内容,算不算抄袭?当真实与虚拟的边界进一步模糊,如何辨别视频内容是否真实?如果被有心人利用沦为诈骗工具,该如何规避诈骗风险……
“的确会有一些危机感。但我始终相信,替代我们的永远不是AI,而是掌握AI的人。”叶子说。
目前,Sora引发的讨论还在继续,大家对这项新技术的好奇和激动溢于言表。但显而易见的是,未来已来,而Sora,仅仅只是开始。