即便大公司在资金、技术上占有绝对优势,但在AI时代,无论公司规模大小,都是创业者,很难轻易投入全部精力。

©️出品 东彩地·作者|嘉艺

Sora发布至今已近半年,国内挑战者的数量也只增不减。

在刚刚结束的2024世界人工智能大会(WAIC)上,多个“中国版Sora”亮相。

快手发布更新版克灵大模型,最长时长可达3分钟;商汤推出最新角色AI视频模型维米,主打技术的“可控性”;阿里达摩院发布AI视频创作平台“迅光”,主攻辅助剧本创作。

虽然AI生成视频久违地火了起来,但整体水花并不大,虽然关于谁是中国版Sora的竞争从未停止,也还没出现一款得到业界普遍认可的产品,但快手已经成为了最新的变数。

无论是从技术路线、视频时长还是生成效果来看,快手的刻灵模式似乎与Sora最为相似。

“我甚至认为它打败了Sora。我认为这款产品在我使用的范围内,是目前世界上最好的。”在测试了快手科灵后,猎豹创始人傅盛对其给予了高度评价。

值得注意的是,傅盛提到了“使用范围”,目前国内的AI视频播放器数量有限,Sora依然神秘,这一定程度上“凸显”了快手科灵的相对优势。

01 | “国产空”又来袭?

在Sora发布的前几天管家婆免费期期精准大全,张楠宣布辞去集团CEO一职,并亲自带领团队转投快手,寻求AI视频方面的突破。

作为短视频平台中的巨头,快手早已被抖音盖过风头。大咖时代,外界习惯性地对抖音寄予厚望,将其视为狙击Sora的种子选手。

就在人们热切期待张楠会带来怎样的成绩时,快手CEO程一笑却“截住了机会”。

原本就对Sora充满好奇的国内外网友,在看到快手课灵的演示效果后更是纷纷表示惊叹4949澳门免费资料大全特色,AI 时代,大厂也难轻易全力投入,谁能成为中国版 Sora?,纷纷在线上寻求试用机会。至少在国内AI视频领域,这种情况是比较少见的。

快手称,可灵模式上线一个月以来,累计申请用户突破50万,激活用户突破30万,生成视频数量700万条。

被外界戏称为“中国版Sora”的产品有很多,但快手科灵是不是最值得这个称号的呢?

先从技术路线说起,快手可灵的架构采用了类似Sora的DiT结构,以组合的方式取代了传统扩散模型中基于卷积网络的U-Net。

4949澳门免费资料大全特色,AI 时代,大厂也难轻易全力投入,谁能成为中国版 Sora?  第1张

其具有良好的扩展性,随着模型的增长,其结构会不断完善,但是当U-Net模型增长到一定规模后,增益效果会变慢甚至停止。

Sora 能够在 AI 生成视频方面实现质的飞跃,得益于对底层技术架构的巧妙选择。阿里达摩院分析认为,Sora 的智能体现在三维一致性、长距离一致性和物体持久性,与世界交互的能力,以及对数字世界的模拟。

科灵似乎还能生成带有 Sora 效果的视频,真实还原物理世界。比如,人在吃汉堡时,嘴角很容易沾上酱汁,汉堡也会留下咬痕。在科灵官网展示的 demo 中,小男孩吃汉堡时的动作和表情都比较自然。

外国网友@Garry Tan看到这段视频后惊呼:“Oh man this is me.”

4949澳门免费资料大全特色,AI 时代,大厂也难轻易全力投入,谁能成为中国版 Sora?  第2张

(:快餐店里,一名戴眼镜的中国男孩闭上眼睛,享用美味的芝士汉堡。图片来源:官网。)

但在操控细节方面,快手科灵与Sora还是有着明显差距。

傅盛曾用快手科灵模仿过Sora的气球人视频,在一些镜头里,不难发现气球里有一个人头。而至于气球本身,Sora的气球透明度非常自然,和真的气球一模一样。科灵的气球充气很大,在阳光下几乎看不清透明度的变化。

4949澳门免费资料大全特色,AI 时代,大厂也难轻易全力投入,谁能成为中国版 Sora?  第3张

(图片来源:@傅盛讲AI)

此外,Sora 可以接受提示词、图片,甚至视频作为输入,大模型会根据用户的输入生成视频,多模态大模型支持多样化的输入方式。

由于Sora支持文本转图模型,很多没有文字标注的视频可以被自动标注,用于视频生成训练。

同时,用户的输入也可以扩展为更加详细的描述,有效帮助Sora提取和理解用户的需求,使得生成的视频更加符合用户的期待。

例如,输入“女性在商店购物”可能会扩展关联到诸如女性服装、商店装饰和购物类型等信息。

在这方面,快手科灵想要直接“抄袭”Sora并不容易。

快手的通用语言模型“快译”在功能性上远不如GPT,在国内大模型梯队中存在感也比较弱,快译对可灵语义理解的贡献很可能有限。

目前快手课灵支持文字输入、图片输入,以及各类控制信息输入,如相机运动、帧率、边缘/关键点/深度等,但不提供视频输入功能。

02 | “生死线”的变化

以Sora的出现为分界线,AI生成视频领域被划分为“10秒以内时代”和“60秒以上时代”。

此前,国内还没有一款产品能够让视频持续10秒,10秒成为衡量产品的“生死线”。

爆红网络的AI视频生成应用Pika,去年11月底正式发布,比Sora早几个月,只能生成3秒时长的24帧视频。

如果有时长超过10秒的产品,那基本上就是拼接的视频了。

代表性产品有百度AI文胜视频,根据文字内容自动帮寻找合适的视频素材并输出视频,本质是对已有素材的拼接,并不涉及新视频内容的生成。

还有让单帧图像“动起来”的文声视频技术,代表产品有阿里巴巴的EMO模型,输入声音和图片,比如一首歌、一张人物照片,就能生成一段人物唱歌的短视频。

以上产品只是“从有到有”,但Sora的视频技术真正实现了“从无到有”,直接跃升到“构建现实”的新高度。

Sora推出后,“生死线”延长至60秒,受到震撼和刺激,国内厂商开始奋起直追。

Pika创始人郭文静表示,“(Sora)是一个令人兴奋的消息,我们已经准备好直面它,将直接与Sora竞争。”经过多次更新,Pika现在已将屏幕显示时间延长至4秒,这个时间只够做一个表情包。

首家突破10秒“生命线”的公司是清华支持的圣数科技。今年4月,其Vidu大型机型首次亮相,可以拍摄16秒视频,被称为“中国版Sora”。不到两个月后,Vidu宣布升级到32秒视频。

首个跨越10秒“生死线”的大公司是腾讯的混元大模型,它还能生成16秒的视频。

但抖音集团旗下的极梦却落后了,目前仅支持3秒视频的生成。

4949澳门免费资料大全特色,AI 时代,大厂也难轻易全力投入,谁能成为中国版 Sora?  第4张

1秒的延长往往意味着对技术路线、训练数据等进行大量的研究和优化,而单就训练素材而言,视频比文字和图像更加稀缺,采集、清洗和标注难度也更大。

套用 Sam 对 GPT 为何优于其他大型模型的解释,是因为它有“一百万个小技巧”。

腾讯混元大模型能跨过10秒门槛,主要因为其基础架构全面升级,由传统的U-Net改为DiT架构,参数数量提升十倍以上。

快手刻灵最初支持2分钟的视频,通过增加续写功能成功延长至3分钟,不过快手刻灵内测仅支持生成几秒的视频。

视频长度与连贯性高度相关,国内机型的视频时长早已被限制在10秒以内,无法保证人物、场景、情境逻辑的连贯性,厂商为了流畅,宁可放弃长度。

比如,人遛狗时,狗怎么走?遇到路人时会有什么反应?人和狗移动时,周围环境如何同步变化?我们日常生活中习以为常的场景,在虚拟世界中都是极其复杂的问题。

“‘可灵’绝对是一个非常复杂的项目,需要大量的资源投入,需要多方协作,绝对不是一个天才随随便便就能做出来的东西。”快手视觉生成与交互中心负责人万鹏飞说。

03 | 平静的战场

发布之后,国内各大公司纷纷抢先推出通用语言模型,不到两年时间,该领域经历了“百模大战”、“开源闭源之战”、“价格战”,百度、阿里巴巴、腾讯、字节跳动、华为等均参与到对抗之中,火药味十足。

AI生成视频的热度就小了很多,在“王者炸弹”Sora发布之后,讨论热度依旧,但从产品数量上看,国内尚未再现大型语言模型的盛况。

仅有字节跳动海外版剑影跟进,上线了文胜视频产品的测试版,但反响不佳,有网友反映生成一条视频耗时约1800分钟。

资本也把主要热情投入到通用语言大模型上,同为创业公司,Kimi的月之暗面估值超200亿元,圣书科技估值也才1亿多美元。

即便是科灵,对快手的市值也没什么影响,自6月份以来,快手股价持续下跌,直到7月12日才稍有起色。

不过,这并不意味着大公司对视频不感兴趣,他们只是改变了玩法。

“应用工厂”字节跳动继续做自己擅长的事情,用应用的方式开放AI生成视频,推出了梦想App,可以在两分钟左右生成一段3秒的视频,这是一个明显的进步。如果想将视频延长3秒,则需要购买会员。

在推出自研混元大模型的同时,腾讯还发布了文胜图大模型,该模型完全开源,可免费用于商业使用。

百度倾向于寻找优质的投资目标,对圣数科技早已感兴趣。华为和阿里巴巴也进行了押注。

玩法改变的背后,是国内厂商试水性价比的结果,大厂商对于轻度滚动文字的大型机型,有些应付不过来。

由于 Sora 是完全闭源的并且对其技术细节保密,因此竞争对手很难“复制其工作”。

算力短缺是另一大痛点,即便大公司在资金、技术上占有绝对优势,但在AI时代,无论公司规模大小,都是创业者,很难轻易投入全部精力。

中信证券曾经简单估算,一段60帧的视频(约6-8秒)大约需要6万个,如果去噪步长为20的话,相当于生成120万个。考虑到实际使用时需要多次生成扩散模型,实际计算量将远远超过120万个。

业内也盛传Sora的参数规模在100亿到300亿之间,所需的算力可能与千亿规模的大型语言模型差不多。

这意味着具有相同参数的视频模型比大型语言模型需要数十倍的计算能力。

而且,不同于语言大模型已经指出了明确的B端商业化路径,视频大模型目前还处于探索阶段,甚至距离全面公测都还很遥远。快手科灵也暂无商业化计划,并未对外提供API。

该CTO曾指出,Sora计划于2024年向公众推出。

打仗从来不是没有准备的,Sora的开放或许会进一步激活国内AI视频的轨道。

注:数据来源于公开披露,不构成任何投资建议,投资有风险,入市需谨慎。

“点赞”“阅读”“分享”是对作者最大的支持。