李飞飞宣布推出全新模型
当地时间10月16日,李飞飞宣布推出全新模型RTFM(A Real-Time Frame Model),不仅具备实时运行、持久性和3D一致性,单张H100 GPU就能运行。这是一款效率极高的,在大型视频数据上进行端到端训练的自回归扩散Transformer模型。 其独特之处在于,它不构建世界的显式三维表征。相反,它接收一张或多张二维图像作为输入,然后直接从不同视点生成同一场景的全新二维图像。仅仅通过观察训练集中的视频,RTFM便学会了对三维几何、反射、阴影等复杂物理现象进行建模;而且还能利用少量稀疏拍摄的照片,重建出真实世界的具体地点。
表情