观察｜Sora或将模拟一个全新世界

2024-02-26 16:27:04 作者 : 田佩雯武柳青围观 :613次

近日，美国人工智能研究公司OpenAI推出人工智能文本生成视频大模型——Sora。在其官网首页，无数只彩色纸飞机在空中飞翔，穿越密林的姿态，犹如真实的群鸟一般。这个被OpenAI称作“世界模拟器”的Sora，名字来源于日语“天空”，它继承了OpenAI DALL·E3的画质和遵循指令能力，可根据简单文字，生成长达1分钟的高清视频。

Sora究竟有哪些特别之处？会不会在不远的将来抢走人类的“饭碗”？如何看待其带来的系列挑战？2月22日，湖北日报全媒记者采访了部分专家和相关人士。

前所未有的技术飞跃

Sora的官网展示了48个视频，其逼真细节、流畅程度，以及娴熟的镜头转换，足以惊讶每一位专业及非专业人士——

霓虹闪耀的东京夜晚，一位墨镜女郎步履曼妙款款走来，城市光景尽收眼底；咖啡杯内，两艘海盗船正在进行一场激烈的竞逐，波涛汹涌，犹如一场真实的“海战”；特写镜头下，变色龙展示着其令人瞩目的变色能力，画面细腻程度不亚于纪录片……

Sora让“一句话生成视频”成为可能，并且令人震惊的是，Sora能够理解物体在物理世界中的存在，并呈现出世界的复杂性和多样性，用镜头语言“讲故事”，这也让Sora创造的内容几乎没有太多“AI感”。

武汉大学计算机学院“90”后教授叶茫从事计算机视觉相关研究，为什么Sora能够实现如此震撼的效果？叶茫解释，Sora继承了ChatGPT基因，在语言理解方面功夫深厚。首先基于对文本的准确分析，Sora理解了文本中的关键词、短语、句子甚至情绪之后，再从广泛的数据中，规划视频的风格、场景、主题，匹配最适合的内容，“就是在找到一个大的范围之后，根据文本进行一些调整。”

“能做到这一点，其实需要通过大量的视频训练。”叶茫说，在以前的案例中，文生视频较短（4秒），或者视频分辨率比较低。Sora有着60秒超长的长度，保证了图像的连续性和真实感，并且能够围绕同一主体进行远景、中景、近景、特写等不同镜头的切换，这意味着Sora经过大规模的训练，出现了“对世界的模拟”。

但在物理规律的模拟上，Sora仍存在不足。比如演示视频中，五只小狼崽在一条偏僻的碎石路上互相嬉戏、追逐，但一些小狼会凭空出现或消失。OpenAI也毫不避讳地说明：“它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。”

“但某种程度上，它也可以创造出更多想象空间。”叶茫说，“比如鲨鱼能够在天空中飞翔，虽然不符合常识，但也极具想象力。”

人人可做“白日梦想家”

目前，Sora暂未广泛开放权限，仅对小部分视觉艺术家、设计师和电影制作人开放。但Sora一经发布，如投石击水，惊起一圈波澜。

看到Sora制作的视频后，影视从业者林佳笑称，“饭碗快端不住了”。林佳说，Sora生成视频的光影和细腻效果都让人震惊，“质感相当不错，完全可以达到一些电影的水平”，如果用传统的建模来制作这样的效果，则需要几倍，甚至几十、几百倍的制作成本。

有网友提出，人工智能能够根据文本生成视频，未来一部小说就是一部电影。但在林佳看来，同行对于人工智能的忧虑，目前仅仅止步于玩笑中。

据林佳观察，身边使用人工智能大模型的人并不多。林佳坦言，Sora也许像ChatGPT一样，是一种提高效率的创作工具，能极大节省内容生产成本，但高质量的长视频需要各工种的策划配合，短时间内Sora还难以实现，“但好的创意肯定会越来越值钱，Sora对于创意人来说，也许并不是洪水猛兽。”

在技术协同发展的背景下，叶茫认为，Sora将与脑机接口、脑机交互、元宇宙等领域结合，碰撞出无限可能。据叶茫介绍，此前，文生视频在游戏领域已有小范围应用，随着技术的迭代，现在是60秒，未来就可以是10分钟、半小时甚至更多，人们在想象中遨游将变为可能，“未来与AR、VR结合，配合头显眼镜等硬件设备，将会存在很大的发展空间，将来能够彻底改变我们和数字内容的交互方式，创造出一种前所未有的沉浸式体验。”

如何用好Sora？

“Sora的诞生意味着AGI（通用人工智能）实现可能从10年缩短至一两年。”360公司创始人周鸿祎公开表示，Sora展现的不仅仅是视频制作的能力，有了大模型技术作为基础，再加上人类知识的引导，可以创造各个领域的超级工具，例如在生物医学、蛋白质、基因研究，包括物理、化学、数学的学科研究上，大模型都会发挥作用。

叶茫认为，Sora文生视频实际上基于大规模数据的持续训练，以及巨额算力支撑，目前国内绝大部分大模型公司应该都无法完成，“AI的快速发展带来了巨大的算力需求，中外差距在进一步加大，也对底层研究提出了更高的要求。”

作为广告人，叶子早就注意到AI在广告行业内的应用。她表示，不得不承认，在AI的影响下，广告创意、制作、投放等方面的效率都得到了大幅提升。比如，利用算法可以更精准分析用户行为，更精准投喂广告内容；借助AI碰撞出高质量的个性化创意，吸引更多人的眼球。

叶茫和叶子不约而同地强调，Sora也面临着几个生成式AI老生常谈的问题。比如版权方面，AI在学习中“借鉴”“模仿”特定艺术家风格生成内容，算不算抄袭？当真实与虚拟的边界进一步模糊，如何辨别视频内容是否真实？如果被有心人利用沦为诈骗工具，该如何规避诈骗风险……

“的确会有一些危机感。但我始终相信，替代我们的永远不是AI，而是掌握AI的人。”叶子说。

目前，Sora引发的讨论还在继续，大家对这项新技术的好奇和激动溢于言表。但显而易见的是，未来已来，而Sora，仅仅只是开始。

标签：

上一篇
2024政府工作报告中的“数据要素”、“数据要素”
下一篇
ChatGPT、Sora与“第二十条”

热门浏览

标签列表