博客
机器从照片中创建预测视频
如果生成高质量视频所需要的只是一系列照片呢?
如果这段视频可以根据剧照有效地预测未来呢?
虽然长期以来,人们很容易将现有的视频分解为其组成帧,但事实并非如此。即使是基于单个帧推断短视频也是一项处理挑战,需要人工智能“填补空白”。
然而,麻省理工学院的研究人员正在开发先进的机器智能方法,可能会使这成为可能。
预测视频——机器能理解因果关系吗?
当看到一张照片时,人类可以根据所看到的动作直观地判断接下来会发生什么。例如,某人在滑板上可能会继续以大致相同的速度向同一方向移动。
这依赖于大量的上下文信息,人们很容易认为这是理所当然的,因为他们在日常生活中接触到成千上万的例子。人们可能不知道重力或惯性的数学基础,但当他们看到它时,他们就知道了!
利用复杂的神经网络,麻省理工学院的项目-用场景动态生成视频-很有希望。研究人员已经开始在两个关键领域加强人工智能:
- 生成与现有镜头充分相似的短视频;
- 根据像素如何变化来预测未来的“帧”。
仍有一些限制有待克服
在经过200多万段短视频的训练后,这个实验性的人工智能能够生成与它遇到的镜头相似的短剪辑。然而,重要的是要意识到,这并不能反映出对镜头中事件的深刻“理解”。
目前的系统只能根据输入构建几秒钟的低分辨率镜头。输出通常包括严重的失真——旁观者很容易分辨出原始视频和生成的视频。
目前,研究的重点是为系统提供产生“合理的”未来的能力,而不是正确的未来。实验机器视觉必须与对物理的深刻理解相结合,并实时处理,才能做出“正确”的预测。
未来方向:交通、媒体等
然而,随着时间的推移,更先进的预测能力可以集成到广泛的应用中。也许最有趣的是,这些确切的概念可以应用于完善系统自主车辆用于识别和避开非静止的障碍物。在虚拟现实、娱乐和一般媒体制作方面也存在各种各样的可能性。
然而,目前麻省理工学院的工作仍在快速进行。由于网络上有无数tb的原始视频可用于实验目的,人工智能开发预测视觉智能的速度可能比任何人想象的都要快。