悠悠久:值得大家信赖的游戏下载站!
发布时间:2024-02-16 16:00:06来源:悠悠久作者:悠悠网
开发团队OpenAI发布了最新的视频生成模型“Sora”,此模型可以根据文字指令能生成长达1分钟的高清视频,并且有一定的“现实模拟”能力,相比制作游戏的物理引擎,其上限要高得多,下面带来详细介绍。
1.他们能训练出这个模型的基础是:找到了一种统一的用文本描述视频材料的范式,得以让大量的视频以及对应的描述材料去训练模型,得到这个模型能力就是文本和视觉呈现之间的某种互相生成关系(能力),那如何得到大量带有相应文本字幕的视频呢?
他们应用了 DALL·E 3 中的重构字幕技术(原来是针对图片的)到视频。首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本字幕。 可以想见,训练及使用模型耗费的算力惊人,所以不太可能在短期内大范围开放;
2.大的框架是:扩散模型+时空补丁,基于深度学习的扩散模型,让一个随机噪声分布(指向图像的)转变成有意义的图像或视频内容,而时空补丁,定义了一个时间序列,使画面的的变化符合时间逻辑;
3.Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。因为是直接生成而不是裁剪视频,在取景,动态效果上也有一定优势;
4.这个模型还有几个出人意料但合理的能力:
a.它可以从一个时间点,向前或者向后去延伸视频,也就是说以某个画面为基点,生成这个时点之前的一段视频或之后的一段视频;
b.自如改变视频的风格和环境;
c.通过插值方式自然的将两个视频连接起来;
d.这一点非常重要,就是这个模型涌现出了一定的“现实模拟”能力,在展示视频中我们看到的不同的镜头运用,包括 3D画面的一致性(比如同一物体因为镜头变化,呈现出的在视觉上保持形状的一致),还包括现实物体的交互(比如要面包后面包上的咬痕)并非刻意设计,或者“建模”的结果,而是自然涌现的,这点我们在纯语言模型上已经见识过了。
而在这个模型上面涌现出的能力,用文章中的原话来描述“是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。”
上一篇:视频号助手编辑和删除视频方法介绍
下一篇:返回列表
原神雷系一姐刻晴进阶玩法攻略
三国志战略版S6最全阵容搭配攻略及思路详解
猎人×猎人如何快速升级 猎人×猎人快速升级攻略
犬夜叉奈落之战小宝强不强 犬夜叉小宝技能解析
奶牛镇的小时光珂升日常活动行程路线攻略
伊洛纳手游名声与道德提升攻略
少年三国志2蜀国阵容搭配攻略
天刀手游饮玉之殇奇遇激活条件
破晓战歌拳泰伊勒宝珠勋章怎么搭配 泰伊勒养成攻略
超真实躲猫猫模拟器中文版
冒险解谜
全民推手
休闲益智
纸片狗
休闲益智
方块英雄大作战
休闲益智
神魔幻想源兽崛起手游
角色扮演
西游之魔童降世手游
角色扮演
小小拳击手游戏
休闲益智
76屠龙武器传奇
角色扮演
咖啡厅模拟器
模拟经营
超真实躲猫猫模拟器中文版
冒险解谜
全民推手
休闲益智
纸片狗
休闲益智
方块英雄大作战
休闲益智
神魔幻想源兽崛起手游
角色扮演
西游之魔童降世手游
角色扮演
小小拳击手游戏
休闲益智
76屠龙武器传奇
角色扮演
咖啡厅模拟器
模拟经营