字节跳动埋入空间计算的算法公开:Video Deep Anything

     分类 [产品经理]
2025/8/20 10:26:41 浏览量  152 喜欢  7
导读:一个vision Pro的MR产品经理必备的开源算法

字节跳动埋入空间计算的算法公开:Video Deep Anything

 
最近,我在带着团队做vision Pro的开发到了一个攻坚阶段,因为在vision Pro发展的空间计算下,AI时代也进入了3D空间智能时代,所以如何让系统自动化生成空间视频,是我们首要解决的。
而在读博士期间,我们会看不少科研论文与算法,这里我们找到了字节跳动公布的算法。
比较巧的是空间计算发展的今天,我们也即将迎来国产VIVO的MR眼镜发布会,就在21号得到发布。
我也第一时间预定了,其发布会我相信人类抛弃手机的时代将逐步越来越近了
字节跳动埋入空间计算的算法公开:Video Deep Anything
 
在VIVO发布之后,我相信接下来MR眼镜将会成为越来越主流的设备。
而现在MR眼镜背后的空间计算,最缺的就是生态应用,因为在全新的终端里,用户与场景交互随着眼球与手势全新的交互,导致应用的操作与功能也会有变化。
所以这不得不要求每个产品经理重构现在的应用,从手机变成网页端的webXR
以让用户得到信息操作,而让用户沉浸在数字生活中,与真实、数字进行交互,这就是现在空间计算产品经理要做的事情。
而现在在空间计算下,就离不开空间看视频,而和传统普通平面视频不一样,在MR眼镜的空间计算里,都是看空间视频一直在关注如何让平面生成3D的相关算法,其中核心的就是高斯溅射与3D视频生成技术。
所以现在比较巧的是,最近字节跳动公布了他们的视频生成3D算法,叫做video-depth-anything,可以生成3D视频,将普通视频导入后就可以生成,并且能够识别到视频里面的深度与浅度。
字节跳动埋入空间计算的算法公开:Video Deep Anything
从现在来看生成视频的延迟时间大概在10秒以内,即使生成最高FP32精度的视频,也只需要显存7.3GB。
算法生成模型目前提供3种训练模型,分别是从28M到381M,开发者可以自己选不同的模型达到不同精度。
这个视频的效果就可以直接生成空间视频,虽然现在的画面精度还不够,但是从未来角度画面会越来越清晰,但是就天然的适配空间计算场景,所以我们带着团队就开始做这个算法集成了。
采用类似高斯溅射的技术,将视频图像进行分帧处理,识别每一帧里面图像的近和远
字节跳动埋入空间计算的算法公开:Video Deep Anything
这套算法底层是基于Tiktok与香港大学联合共同研发的Depth Anything,支持将单个图片生成远近距离从而达成空间视频化
字节跳动埋入空间计算的算法公开:Video Deep Anything
其中最大的特点就是延迟低,以及显存占比小,可以让视频生成速度更快。如下是该模型的对比,在一致性与准确度上,成为第一,并且延迟在67MS。
字节跳动埋入空间计算的算法公开:Video Deep Anything
下面是这个算法的地址:

https://github.com/DepthAnything/Video-Depth-Anything?tab=readme-ov-file

目前AI模型正在朝着空间智能发展
最近腾讯混元模型也更新了自己的空间3D模型,支持生成3D视频,并且还能够在里面实时交互,这个和worldLabs的李飞飞效果同理。不过在生成速度上,还是要李飞飞的更快一些。
字节跳动埋入空间计算的算法公开:Video Deep Anything
 
比如下面是字节公布的生成3D智能视频效果
 
MR眼镜与空间视频与空间智能
在OS26上,苹果vision Pro支持了空间照片,这种空间照片可以允许用户更加沉浸式的观看3D照片,也是利用相似的技术,我们其实也可也叫做高斯溅射。
这种空间照片效果在MR眼镜里可以得到最大发挥,因为用户可以各种角度观看视频,而不是只看一个平面。
字节跳动埋入空间计算的算法公开:Video Deep Anything
如上图是高斯溅射的效果,下面是空间照片的观看效果,支持周围3D场景观看,并且可以随着摇头进行查看。
字节跳动埋入空间计算的算法公开:Video Deep Anything
在空间计算下3D智能将得到更快速的发展,因为现在在手机上使用空间智能是过于复杂的,用户需要点击手机屏幕进行拖动才能够查看到各种部角色部位。
2.MR设备里,人类的眼球与手势与摇头成了最自然的空间交互
相比手机,vision Pro这样的MR设备就拥有非常自然的交互了,再也不是埋头看手机了,而是自然的进入空间。
空间交互里就可以允许用户直接查看周边环境,并且通过眼球转动就可以看到其他位置。
字节跳动埋入空间计算的算法公开:Video Deep Anything
这种效果也就只有MR类头盔才能展示出来。
后续我们将会更新我们的功能上线vision store,并且也会尽快迁移支持国产VIVO MR设备。
当然如果关注我的朋友有在VIVO的产品经理,感谢推荐,期待我们可以尽快移植我们vision Pro的APP到国产MR眼镜设备里。

今天的分享就在这里

 

标签

微信扫一扫,分享到朋友圈

微信公众号
 苹果iOS虚拟币充值(抖音钻石、快币、薯币、比心币、他趣币、陌陌币充值)

相关推荐