海湾运如何使用机器人摄像头识别拍到的足球门

从计算机博弈到机器人足球 人工智能长期而持续的挑战

专题报道 S R pecial eports 从计算机博弈到机器人足球 ——人工智能长期而持续的挑战 徐心和 东北大学机器博弈研究室沈阳,110004 摘 要:计算机博弈是人工智能领域提出的第一个挑战性课题经过半个世纪的艰苦拼搏,取得了战胜人类冠军 的辉煌业绩这一阶段,人工智能领域又提出了新的更高的挑战性课题——机器人足球尽管中国在机器人足球 领域与先进国家的差距在减小,但是在计算机博弈领域的差距在加大应该看到,计算机博弈仍然具有鲜明的挑 战性而且具有非常好的科普性。应该有更多的院校参加到国内和国际的计算机博弈大赛当中 关键词:机器人足球;计算机博弈;人工智能;搜索技术 1.引言 足球竞赛活动的开展上取得了非常好的业绩,与国 际先进水平嘚差距在不断缩小但是在计算机博弈 如何让计算机表现人类智能?包括人类的感 方面却冷冷清清差距好像还在加大。应该看到 觉识別、思维决策、技术动作、学习提高等等,都 计算机博弈依然是人工智能领域极富挑战性的研究 是计算机科学领域的前沿课题如何选择那些与人 课题,在国际上的研究工作一天也没有止步而且 类生活密切相关的、能够调动群众性广泛研究兴 计算机博弈主要是博弈技术研究与软件开发,成本 趣的、有显示度和关注度的人工智能课题作为统 很低,具有更好的普及性在中国应该补上计算机 一的实验平台,開展科技竞赛活动这是需要精心 博弈这一课,不仅可以更好地推动青年学生的科技 挑选和设计才能发挥它推动科学研究进展的能动作 活動而且会对于博弈论、对策论及优化理论在经 用。应该说这样的课题并非很多而计算机下棋和 济、社会、军事等领域的应用创造更好嘚条件。 机器人足球便是非常成功的案例 本文第二节介绍了计算机博弈的艰苦历程和辉 计算机下棋,也就是计算机博弈又称之为 煌战績,第三节给出了机器人足球的诞生与发展 机器博弈(Computer Games),伴随着计算机的诞 对比了计算机博弈与足球机器人技术的特点说明 生便受箌学术界的普遍关注,显然这是人工智能领 中国已经成为机器人足球大国;第四节指出计算机 域的很有显示度的挑战性课题尽管“人工智能” 博弈深厚的技术内涵与挑战性、人工智能的“果 (Artificial Intelligence)学科还是在它十年之 蝇”及应用前景;在结语部分论述了它良好的普及 后(1956年)才正式诞生。 性号召更多的院校关注和参与计算机博弈的研究 经过将近半个世纪的艰苦拼搏,计算机在棋类 与开发 博弈方面陆续取嘚了一系列引人触目辉煌业绩,尤 其是以1997年IBM深蓝战胜世界棋王卡斯帕罗夫而载 2.计算机博弈——第一个挑战性课题 入史册就在上世纪90年代,人工智能领域的专家 学者又郑重地提出了机器人足球(Robot Soccer)项 早在计算机诞生的前夜著名的数学家和计算 目。将机器人和世界第一大体育项目结合更是得到 机学家阿伦·图灵(Alan Turing)便设计了一个能 非同寻常的反响在不到20年的时间里,机器人足 够下国际象棋的纸上程序并经过┅步步的人为推

}

人类视觉系统有一个我们习以为嘫但其实极其强大的功能那就是可以从平面图像反推出对应的三维世界的样子。即便在有多个物体同时移动的复杂环境中人类也能够對这些物体的几何形状、深度关系做出合理的推测。

然而类似的事情对计算机视觉来说就有相当大的挑战在摄像头和被拍摄物品都静止嘚情况下尚不能稳定地解决所有的情况,摄像头和物体都在空间中自由运动的情况就更难以得到正确的结果了

原因是,传统的三维重建算法依赖三角计算需要假设同一个物体可以从至少两个不同的角度同时观察,通过拍摄的图像之间的区别(视差)解算三维模型想要滿足这样的前提,要么需要一个多摄像头阵列要么要保持被拍摄物体完全静止不动,允许单个摄像头在空间中移动观察那么,在只有單个摄像头的情况下深度计算中要么会忽略掉移动物体,要么无法计算出正确的结果

在谷歌的新研究《Learning the Depths of Moving People by Watching Frozen People》中,他们提出了一种新的基於深度学习的方法来解决单个摄像头+摄像头和物体都在移动的状况下的深度预测在任意视频上都有很好的效果。这个方法中用人类姿态、常见物体形态的先验学习替代了对于图像的直接三角计算

值得指出的是,用机器学习的方法「学习」三维重建/深度预测并不是什么新鮮事不过谷歌的这项研究专门针对的是摄像头和被摄物体都在移动的场景,而且重点关注的被摄物体是人物毕竟人物的深度估计可以茬 AR、三维视频特效中都派上用场。

正如绝大多数此类方法一样谷歌选择了用有监督方法训练这个模型。那么他们就需要找到移动的摄像頭拍摄的自然场景视频同时还带有准确的深度图。找到大量这样的视频并不容易如果选择生成视频的方法,这需要非常逼真的建模洏且在多种场景、光照、复杂度的组合下呈现自然的人物动作,不仅有很高的难度而且想要泛化到真实场景中仍然有一定难度。另一方法是在真实世界中拍摄这样的视频需要摄像头支持 RGBD (彩色图像+深度图),微软的 Kinect 就是一种常用的低价方案;但这个方案的问题是这类攝像头通常只适用于室内环境,而且在三维重建过程中也通常有各自的问题难以得到理想的精度。

机智的研究人员们想到了利用 YouTube 上面的視频YouTube 上的海量视频中,各种题材、场景、拍摄手法的都有有一类视频对这个任务极其有帮助:视频中的人假装时间静止,保持位置和姿态不动然后一个摄像机在空间中移动,拍下整个场景由于整个场景中的物体都是固定的,就可以用传统的基于三角计算的方法精确哋还原整个三维场景也就得到了高精度的深度图。谷歌的研究人员们搜集了大概 2000 个这样的视频包括了不同数量的人们在各种各样不同嘚真实场景中摆出各种姿势。

为正在移动的人估算距离

上面说到的「时间静止」视频提供了移动的摄像头+静止的物体的训练数据但是研究的最终目标是解决摄像头和物体同时运动的情况。为了应对这个区别谷歌的研究人员们需要把网络的输入结构化。

一种简单的解决方案是为视频中的每一帧分别推理深度图(也就是说模型的输入是单帧画面)虽然用「时间静止」视频训练出的模型已经可以在单帧图像嘚深度预测中取得顶尖的表现,但谷歌的研究人员们认为他们还可以利用多个帧的信息进一步提升模型的表现。比如对于同样的固定粅体,摄像头的移动形成了不同视角的两帧画面就可以为深度估计提供非常有用的线索(视差)。为了利用这种信息研究人员们计算叻每个输入帧和另一帧之间的二维光流(两帧之间的像素位移)。光流同时取决于场景的深度和摄像头的相对位置不过由于摄像头的位置是未知的,就可以从光流场中消去两者间的依赖从而得到了初始深度图。这样得到的深度图只对场景中静态的部分有效为了还能处悝移动的人,研究人员们增加了一个人物分割网络把人从初始深度图中遮蔽掉。那么网络的输入就由这三部分组成:RGB 彩色图像,人物掩蔽以及通过视差计算的带有掩蔽的深度图。

对于这样的输入网络的任务就是补上有人的区域的深度图,以及对整幅画面的深度图做┅些完善由于人体有较为固定的形状和尺寸,网络可以很容易地从训练数据中学到这些先验并给出较为准确的深度估计。在训练完毕後模型就可以处理摄像头和人物动作都任意变化的自然拍摄视频了。

与当前的其它优秀方法的对比如下图

通过深度图实现三维视频效果

得到准确的深度图之后,一种简单、常见的使用方法就是实现景深和虚焦效果如下图。

其它的用法还比如可以用原图结合深度图进行尛幅视角变换合成「三维画面」,如下图;甚至在画面中增加具有准确深度和尺寸的三维元素也不难

本文参与,欢迎正在阅读的你也加入一起分享。

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信